华为日前发布最新算力超节点和集群。这是基于中国可获得的芯片制造工艺提出的算力解决方案,以解决中国发展人工智能对算力的大量需求,可以说是一条有中国特色的AI算力创新之路。
发展人工智能,算力是关键基石。无论是AI模型训练,还是实时应用场景,都需要海量强大的算力作支撑。近年来,从大模型参数呈指数级增长,到各类AI应用对实时性、稳定性要求的持续攀升,对算力的需求呈井喷式增长。我国AI产业发展迅速,但算力基础设施受供给不足、成本高企、生态待建等制约,仍存在算力缺口,尤其是高端算力。一个重要原因是算力芯片受制于人,不仅前期开发成本高、研发实力存在差距,而且面临断供风险。
芯片制造工艺受限怎么办?华为给出“数学补物理、非摩尔补摩尔、群计算补单芯片”的办法。通俗点说,就是单颗芯片的性能可能不如别人,但是“人多力量大”,多颗芯片加起来就可以做到比别人强。这背后的战略是以系统能力替代单点优势,以互联跃迁替代线性赶超。传统摩尔路径强调一颗芯片解决所有计算问题,非摩尔路径更强调整合优势,对产品开发、软件工程、芯片设计、网络架构、能源系统、场景应用等全链条打通协作提出了更高要求。
由此可见,AI算力不等于单颗芯片性能。算力是芯片性能、架构设计、资源协同等多方面因素综合作用的结果。在芯片制造工艺受限的情况下,通过创新架构设计,同样能实现算力大幅提升。正是基于这个办法,“超节点+集群”成为应对算力持续增长的重要解决方案。其中,超节点在物理层面是多机柜、多个卡组合而成,但从逻辑上看,它像一台计算机一样进行学习、思考与推理。集群则是把多个超节点通过网络联结在一起,形成一个大规模的计算群组,再借助软件来实现高效调度管理。
“超节点+集群”构建起独特的技术优势。AI有个重要属性叫并行计算,是将复杂任务拆分为多个小任务,通过多个计算单元同时处理以提升效率。立足这一属性,打造数百颗甚至上万颗芯片的规模组合,再通过网络联结形成规模算力池,将持续突破算力供给天花板。这种战略既发挥了已有的技术积累优势,包括芯片设计、联结能力等,规避外部硬件限制,又能通过基础设施提供算力服务挣钱,最终达成技术突破与市场收益双赢,为AI算力可持续发展提供了可行路径。
生态建设是AI算力发展的重要一环。华为为何坚持开源开放战略?因为开源开放能吸引更多开发者参与生态建设,不断反馈问题、提出优化建议,形成以用促建的良性循环,让产品更好用。硬件卖得多了,开源开放的成本自然也就回来了。比如,若是产业链上下游企业基于华为开放的灵衢互联协议技术规范,研发光模块、交换机、服务器等配套产品,就能逐步构建起完整的自主AI生态体系。这种开放共建模式,将有效增强协同创新,避免重复研发造成的资源浪费,提升我国AI产业整体竞争力。
中国AI算力的创新发展之路,是一条融合架构创新与生态构建的特色之路。凭借在技术创新、基础设施建设以及产业协同等方面的独特优势,中国有望在全球AI算力竞争中占据领先地位,为我国AI产业蓬勃发展、新质生产力培育注入源源不断的动力。