大模型训练持续提速,智能化生产力蓄势待发。大模型应用走深向实,已经从2C现象级应用走向2B 通用应用,正在走向场景化2B应用。

场景化2B应用是企业的核心生产场景,因此,大模型快速迭代能力非常关键,以Tesla为例,需要将自动驾驶训练过去一个月的工作量缩短到一周内完成,实现2~3周一次OTA,满足安全和竞争力需要。可以预见的是,千行万业智能化过程中不断涌现的新需求,将驱动大模型训练时长缩短至天级甚至小时级。

趋势一:智算集群步入超十万卡时代

集群规模从万卡快速跃升到十万卡级:受大模型的“涌现”效应影响,大模型参数持续增长,其增长速度已经超越摩尔定律(单卡算力提升速度),导致集群规模在持续增长,目前已经进入十万卡时代。

网络是决定集群大模型训练效率的关键:AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达50%,模型参数越多,集群规模越大,数据同步耗时越长,网络的通信效率对模型训练效率影响越重,尤其十万卡级大模型需要更高质量的网络。

高质量的网络,需要无阻塞、低时延,满足十万卡级高线性度的算力利用率,大规模AI场景下海量的参数分布于多个服务器的多个GPU之上,需要用到多大十万个GPU来训练数十TB级甚至更大的数据,大量GPU之间的通信容易出现由于网络负载分担不均或者时延过大导致算力闲置,算法线性度下降甚至出现“饱和”现象。

高质量的网络,需要长稳、健壮,支撑十万卡级大集群训练的高可靠,大模型训练是一个复杂的系统工程,系统稳定运行十分重要,而网络基础设施是长稳训练的关键。

某个千亿大模型总训练时长65天,由于故障引起的重启多达50多次,训练时长只有33天。在十万卡级集群中,由于规模和复杂度急剧上升,这类故障风险也更加凸显,并且故障的恢复时间长,导致系统整理可用性低于60%。

趋势二:高运力入算网络建设提速,使能智算云服务商业变现

高运力入算网络,“算力”设施商业变现:算力基础设施建好之后,摆在眼前的另一个问题是如何“服务海量客户用好算力”,实现智算中心的商业正循环。

在中国,当前已经完成建设的智算数据中心中,可对外提供智算云服务的占比不足25%,缺少一张高质量的网络将客户、最终用户、AI应用和智算中心高效联接到一起,为数据要素的高效转运提供超高运力,是一个重要因素。这张高运力的入算网络,主要服务于行业客户行业大模型训练和海量最终用户的模型推理两种场景。

建设高质量入算网络成为产业新热点。中国移动建设并发布九州算力互联网,发布弹性专线等新业务;中国电信升级云网战略,上海电信积极探索“样本数据快递”等新场景的技术创新和商业导入;中国联通则以CUBE-Net3.0作为未来5-10年网络转型的顶层架构设计,意在打造“连接+计算+智能”的融合服务。

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

华为:2024年数据通信技术发展及其前景分析,数据通信行业4大趋势

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。