近年来大模型飞速发展,需要具有基于模型需求自顶向下一体化设计的、计算网络存储等跨域协同的智算基础设施来支撑,做到计算、通信、存储紧密交织耦合,支撑统一编程、统一开发、统一调度、统一管理,因此其能力要求也愈加严苛复杂。从行业实际需求来看,智算基础设施着重关注算力有效性、集群稳定性、绿色低碳性、服务易用性这四个能力要素。
算力有效性是核心
智算基础设施的算力有效性,主要指集群算力利用率,其决定了智算基础设施最终的有效算力供给能力。模型计算利用率(MFU,Model FLOPS Utilization)是集群算力性能的核心指标之一,用于评估人工智能加速器在模型训练期间利用程度,它表示在模型训练期间实际使用的浮点运算数(FLOPS)与理论上可用的 FLOPS 之间的比率。高 MFU 表明加速器在模型训练中被充分利用。
集群稳定性是保障
AI 大模型训练面临智算基础设施稳定性、可用度挑战。大模型的训练过程比传统的分布式训练复杂,训练周期长达数月。而集群计算效率低、故障频发且处理复杂,会导致训练中断后不能及时恢复,从而会降低成功率,也会使训练成本居高不下。
模型训练效率的保障需要硬件、系统、软件、驱动等各个部分的持续稳定运转,一旦出现问题,整个训练过程都将停摆。而集群是全机大应用,涉及器件数百万/千万级,而单器件故障就会触发整体集群训练中断,大模型训练全流程时间较长,根因定位定界复杂。
绿色低碳性是前提
智算中心自身能耗和碳排放将带来不小挑战,当前最为先进的智算基础设施单柜能耗已达 50+kw。超大规模预训练模型的出现和快速迭代,智算基础设施的电力成本和设备成本均显著增加。
据相关智库测算,使用英伟达 GPU 集群组成的微软超算数据中心中训练一次GPT-3 模型消耗的电量约为 19 万度,按照全国电力平均二氧化碳排放因子 0.5568kg CO2/kWh9计算,相当于间接排放二氧化碳 105,792kg。
服务易用性是亮点
智算基础设施提供云化服务趋势明显。云化服务是智算基础设施能力触达广大中小企业及个人开发者的重要渠道,智算云服务平台需要与下层智算基础设施形成强耦合协同关联。
云化服务下,用户可以随时随地进行计算资源的访问和应用,无需进行高额的硬件投入或维护。这大大降低了 AI 技术的使用门槛,使更多的企业和开发者能够享受到智能算力的便利。
报告获取:公众号『报告智库』回复数字“1”