腾讯云推出星脉网络2.0 大模型训练再提速20%

2024年07月02日 11:07浏览次数:10135次编辑:圣灵科技-小圣

腾讯云最近推出了升级版的星脉网络2.0,旨在提高大模型训练的效率。在之前的版本中,大型模型的计算结果同步通信时间占据了50% 以上的比例,导致效率低下。新版本的星脉网络2.0在多个方面进行了升级:

微信截图_20240701164156.png

1、支持单集群10万卡组网,规模翻倍,网络通信效率提升60%,大模型训练效率提升20%,故障定位从天级降低至分钟级。

2、自研交换机、光模块、网卡等网络设备升级,基础设施更加可靠,支持单集群10万卡 GPU 以上的规模。

3、全新通信协议 TiTa2.0部署在网卡上,拥塞算法升级为主动拥塞控制算法,通信效率提升30%,大模型训练效率提升10%。

4.、高性能集合通信库 TCCL2.0采用 NVLINK+NET 异构并行通信,实现数据的并行传输,同时具备 Auto-Tune Network Expert 自适应算法,提升通信性能30%,大模型训练效率提升10%。

5.、新增腾讯独家技术灵境仿真平台,实现全面监控集群网络,精确定位 GPU 节点问题,将万卡级训练故障定位时间从天级降低至分钟级。

通过这些升级,星脉网络的通信效率提升60%,大模型训练效率提升20%,故障定位精准度也得到了提升。这些改进将有助于提高大型模型训练的效率和性能,让昂贵的 GPU 资源得到更充分的利用。


来源:站长之家



关注圣灵科技公众号,免费获得更多企业互联网发展方案!

圣灵科技公众号二维码.jpg

友情链接: 百度腾讯抖音小红书今日头条企业盟重庆互联网微星球建筑劳务网云人脉圈全民创收网全民财多多圣灵建站系统圣灵溯源系统圣灵客服系统圣灵人事系统创投100圣灵短视频圣灵传媒圣灵商学院重庆网海南网贵州网云南网广西网甘肃网宁夏网山西网陕西网山东网黑龙江网重庆百科web专家U站网青海网新疆网西藏网安徽网福建网湖北网湖南网四川网河北网河南网吉林网辽宁网AI应用工厂

Copyright @ 2004-2023 cqslkj.cn All Right Reserved @重庆市渝中区圣灵科技信息有限公司 版权所有

渝ICP备16004600号-5 渝公网安备 50010802001399号 电子营业执照

联系方式
023-62897001

77981978
023-62897001
81623110
62891977
微信公众号