2024年07月02日 11:07浏览次数:10306次编辑:圣灵科技-小圣
腾讯云最近推出了升级版的星脉网络2.0,旨在提高大模型训练的效率。在之前的版本中,大型模型的计算结果同步通信时间占据了50% 以上的比例,导致效率低下。新版本的星脉网络2.0在多个方面进行了升级:
1、支持单集群10万卡组网,规模翻倍,网络通信效率提升60%,大模型训练效率提升20%,故障定位从天级降低至分钟级。
2、自研交换机、光模块、网卡等网络设备升级,基础设施更加可靠,支持单集群10万卡 GPU 以上的规模。
3、全新通信协议 TiTa2.0部署在网卡上,拥塞算法升级为主动拥塞控制算法,通信效率提升30%,大模型训练效率提升10%。
4.、高性能集合通信库 TCCL2.0采用 NVLINK+NET 异构并行通信,实现数据的并行传输,同时具备 Auto-Tune Network Expert 自适应算法,提升通信性能30%,大模型训练效率提升10%。
5.、新增腾讯独家技术灵境仿真平台,实现全面监控集群网络,精确定位 GPU 节点问题,将万卡级训练故障定位时间从天级降低至分钟级。
通过这些升级,星脉网络的通信效率提升60%,大模型训练效率提升20%,故障定位精准度也得到了提升。这些改进将有助于提高大型模型训练的效率和性能,让昂贵的 GPU 资源得到更充分的利用。
来源:站长之家
关注圣灵科技公众号,免费获得更多企业互联网发展方案!
Copyright @ 2004-2023 cqslkj.cn All Right Reserved @重庆市渝中区圣灵科技信息有限公司 版权所有