近期,“超节点”在AI圈成为当红热词。
半个月之内,业界陆续推出了多款超节点方案,字节、阿里、腾讯的新一代服务器均将采用超节点设计,旨在突破单机性能瓶颈,满足激增的大模型应用需求。浪潮信息也于近日官宣了其超节点AI服务器——“元脑SD200”。
所谓超节点,英文名为SuperPod,最早由英伟达提出,是一种通过系统级架构创新,将大量计算芯片紧密耦合为单一高速互连域的技术。与简单堆砌多个集群不同的是,超节点是系统不断Scale Up的最优解。
厂商们向超节点涌入,将算力困境的解决方案从单点突破带向系统级重构,他们的探索有望推动AI产业突破算力瓶颈,解决当下最棘手的问题。
Scale Up成为突破算力瓶颈的必然选择
随着AI技术的飞速发展,大模型参数规模已突破万亿级别,如DeepSeek、Qwen、Kimi等开源模型的涌现,显著降低了技术门槛,推动了“智能平权”。然而,模型规模的膨胀也带来了前所未有的算力挑战。
更大规模(万亿参数)、更长上下文演进的发展趋势,导致推理时KV Cache需求剧增,远超当前单颗AI芯片乃至主流多卡服务器的承载极限。
同时,Agentic AI具备自主决策、连续任务执行、多模态交互等核心能力,Agent推理过程需要生成比传统模型多100倍的Token。
此外,Agent中的大模型输出往往是下一步的输入,要求推理速度越快越好,当前主流大模型API普遍拥有50-100 Tokens/s的推理速度,这对显存带宽提出了更高的要求。
构建更大规模的GPU集群有两种路径,分别是Scale Out和Scale Up,前者指的是横向扩展,增加节点的数量,Scale Up是纵向扩展,增加单节点的资源数量。
据中国科学院物理所介绍,每台服务器里,多塞几块GPU,这就是Scale Up。这时,一台服务器就是一个节点。通过网络,将多台电脑(节点)连接起来,这就是Scale Out。
对于单台服务器来说,受限于空间、功耗和散热,能塞入的GPU数量是有限的,一般也就8卡、12卡。塞入这么多块GPU,还要考虑服务器的内部通信能力是否能够支持。如果GPU互连存在瓶颈,那么就达不到Scale Up的预期效果。
单纯堆砌硬件不仅成本高昂,且难以实现线性性能提升,算力利用率低下。要想解决算力难题,依靠单芯片或小规模集群的性能提升已难以为继。
面对单点算力、显存的天花板,构建大规模Scale Up系统,通过并行计算技术(如专家并行、张量并行)将模型权重与KV Cache拆分到多个AI芯片上协同工作,是解决万亿参数模型推理挑战的唯一可行路径。
对模型进行更大尺度的拆分,可以进一步降低单芯片负载,释放空间容纳更多KV Cache,从而提升系统并发数与推理速度,实现降本提速。
浪潮信息副总经理赵帅接受采访时表示,我们需要构建大规模、高集成度的Scale Up系统,通过紧密耦合大量的AI芯片形成单一高速互连域,才能汇聚起超大显存池以承载模型,并通过优化互连拓扑与协议实现芯片间超低延迟、高带宽通信,从而满足万亿模型推理“放得下、算得快”的极致要求。
超节点这种加强版的Scale Up,在性能、成本、组网、运维等方面,有其巨大优势。
“超节点架构本质上也是系统化思维的产物。”赵帅说,超节点不是某一个点的突破,而是在现有技术、生态和成本约束下,从系统层面去打破芯片本身的性能边界,最大化用户价值。
超节点开放架构的生态价值
浪潮信息的“元脑SD200”超节点属于开放架构,以开放系统设计向上扩展支持64路本土GPU芯片,可以实现单机内运行超万亿参数大模型,支持多个领先大模型机内同时运行,也可以实现多智能体实时协作与按需调用,目前已经商用。
具体来看,在应用架构层面,浪潮信息基于Open Fabric Switch,构建了3D Mesh系统架构,实现了单机64路本土GPU芯片的高速互连。
同时,他们通过远端的GPU虚拟映射技术,突破了多Host交换域的统一编址难题,让显存的统一地址空间直接扩增了8倍。
由此,单机可以提供最大4TB的统一显存,和64GB的统一内存。这为万亿超长序列模型提供了充足的KV Cache空间。
超节点不只要求硬件能力,更考验软硬协同能力。
“超节点是一个软硬件协同系统,而不是一个纯硬件。”赵帅表示,多年来,从实验室到应用,再到用户POC的过程,浪潮信息围绕万亿参数大模型计算密集、通信敏感的特性,构建起了一整套软硬协同优化的系统方案。
在系统层面,元脑SD200对于全规约(All Reduce)、全聚集(All Gather)等典型通信算子,开展不同数据量大小的细粒度通信策略设计,如多层级通信机制等,实现通信延时进一步降低。同时依托开放的PD分离框架,支持异步KV Cache高效传输与差异化并行策略,在提升业务服务级别目标的同时保持对多元算力的兼容性,实现计算与通信架构的深度协同优化。
“开放架构”是赵帅强调的另一个关键词,他表示,基于开放架构设计的超节点,能够支持多样化芯片、开放AI框架及主流开发工具,在保障高性能、低延迟的同时,实现跨平台的良好兼容与灵活扩展,推动AI基础设施真正走向开放、可持续的发展路径。
开源开放,是中国AI产业的标志之一。当前,中国开源大模型已在全球范围内展现显著领先性,特别是以DeepSeek、Qwen、Kimi、GLM等为代表的新一代开源大模型浪潮,其意义已超越单一技术突破,正深刻重塑AI产业格局与发展路径。
超节点技术的兴起,则标志着服务器产业从单机竞争迈入了系统级能力重构的新阶段。
这不仅带来了算力的跃升,更对底层硬件、技术标准和产业协作模式提出了全面升级的要求。
赵帅表示,浪潮信息也希望通过开源开放生态链条的构建,促进标准统一和深化产业协作,最终驱动整个产业链的创新融合发展。