• 最近访问:
发表于 2025-08-14 21:12:50 股吧网页版
“超节点”火了,AI算力有救了
来源:21世纪经济报道

  近期,“超节点”在AI圈成为当红热词。

  半个月之内,业界陆续推出了多款超节点方案,字节、阿里、腾讯的新一代服务器均将采用超节点设计,旨在突破单机性能瓶颈,满足激增的大模型应用需求。浪潮信息也于近日官宣了其超节点AI服务器——“元脑SD200”。

  所谓超节点,英文名为SuperPod,最早由英伟达提出,是一种通过系统级架构创新,将大量计算芯片紧密耦合为单一高速互连域的技术。与简单堆砌多个集群不同的是,超节点是系统不断Scale Up的最优解。

  厂商们向超节点涌入,将算力困境的解决方案从单点突破带向系统级重构,他们的探索有望推动AI产业突破算力瓶颈,解决当下最棘手的问题。

  Scale Up成为突破算力瓶颈的必然选择

  随着AI技术的飞速发展,大模型参数规模已突破万亿级别,如DeepSeek、Qwen、Kimi等开源模型的涌现,显著降低了技术门槛,推动了“智能平权”。然而,模型规模的膨胀也带来了前所未有的算力挑战。

  更大规模(万亿参数)、更长上下文演进的发展趋势,导致推理时KV Cache需求剧增,远超当前单颗AI芯片乃至主流多卡服务器的承载极限。

  同时,Agentic AI具备自主决策、连续任务执行、多模态交互等核心能力,Agent推理过程需要生成比传统模型多100倍的Token。

  此外,Agent中的大模型输出往往是下一步的输入,要求推理速度越快越好,当前主流大模型API普遍拥有50-100 Tokens/s的推理速度,这对显存带宽提出了更高的要求。

  构建更大规模的GPU集群有两种路径,分别是Scale Out和Scale Up,前者指的是横向扩展,增加节点的数量,Scale Up是纵向扩展,增加单节点的资源数量。

  据中国科学院物理所介绍,每台服务器里,多塞几块GPU,这就是Scale Up。这时,一台服务器就是一个节点。通过网络,将多台电脑(节点)连接起来,这就是Scale Out。

  对于单台服务器来说,受限于空间、功耗和散热,能塞入的GPU数量是有限的,一般也就8卡、12卡。塞入这么多块GPU,还要考虑服务器的内部通信能力是否能够支持。如果GPU互连存在瓶颈,那么就达不到Scale Up的预期效果。

  单纯堆砌硬件不仅成本高昂,且难以实现线性性能提升,算力利用率低下。要想解决算力难题,依靠单芯片或小规模集群的性能提升已难以为继。

  面对单点算力、显存的天花板,构建大规模Scale Up系统,通过并行计算技术(如专家并行、张量并行)将模型权重与KV Cache拆分到多个AI芯片上协同工作,是解决万亿参数模型推理挑战的唯一可行路径。

  对模型进行更大尺度的拆分,可以进一步降低单芯片负载,释放空间容纳更多KV Cache,从而提升系统并发数与推理速度,实现降本提速。

  浪潮信息副总经理赵帅接受采访时表示,我们需要构建大规模、高集成度的Scale Up系统,通过紧密耦合大量的AI芯片形成单一高速互连域,才能汇聚起超大显存池以承载模型,并通过优化互连拓扑与协议实现芯片间超低延迟、高带宽通信,从而满足万亿模型推理“放得下、算得快”的极致要求。

  超节点这种加强版的Scale Up,在性能、成本、组网、运维等方面,有其巨大优势。

  “超节点架构本质上也是系统化思维的产物。”赵帅说,超节点不是某一个点的突破,而是在现有技术、生态和成本约束下,从系统层面去打破芯片本身的性能边界,最大化用户价值。

  超节点开放架构的生态价值

  浪潮信息的“元脑SD200”超节点属于开放架构,以开放系统设计向上扩展支持64路本土GPU芯片,可以实现单机内运行超万亿参数大模型,支持多个领先大模型机内同时运行,也可以实现多智能体实时协作与按需调用,目前已经商用。

  具体来看,在应用架构层面,浪潮信息基于Open Fabric Switch,构建了3D Mesh系统架构,实现了单机64路本土GPU芯片的高速互连。

  同时,他们通过远端的GPU虚拟映射技术,突破了多Host交换域的统一编址难题,让显存的统一地址空间直接扩增了8倍。

  由此,单机可以提供最大4TB的统一显存,和64GB的统一内存。这为万亿超长序列模型提供了充足的KV Cache空间。

  超节点不只要求硬件能力,更考验软硬协同能力。

  “超节点是一个软硬件协同系统,而不是一个纯硬件。”赵帅表示,多年来,从实验室到应用,再到用户POC的过程,浪潮信息围绕万亿参数大模型计算密集、通信敏感的特性,构建起了一整套软硬协同优化的系统方案。

  在系统层面,元脑SD200对于全规约(All Reduce)、全聚集(All Gather)等典型通信算子,开展不同数据量大小的细粒度通信策略设计,如多层级通信机制等,实现通信延时进一步降低。同时依托开放的PD分离框架,支持异步KV Cache高效传输与差异化并行策略,在提升业务服务级别目标的同时保持对多元算力的兼容性,实现计算与通信架构的深度协同优化。

  “开放架构”是赵帅强调的另一个关键词,他表示,基于开放架构设计的超节点,能够支持多样化芯片、开放AI框架及主流开发工具,在保障高性能、低延迟的同时,实现跨平台的良好兼容与灵活扩展,推动AI基础设施真正走向开放、可持续的发展路径。

  开源开放,是中国AI产业的标志之一。当前,中国开源大模型已在全球范围内展现显著领先性,特别是以DeepSeek、Qwen、Kimi、GLM等为代表的新一代开源大模型浪潮,其意义已超越单一技术突破,正深刻重塑AI产业格局与发展路径。

  超节点技术的兴起,则标志着服务器产业从单机竞争迈入了系统级能力重构的新阶段。

  这不仅带来了算力的跃升,更对底层硬件、技术标准和产业协作模式提出了全面升级的要求。

  赵帅表示,浪潮信息也希望通过开源开放生态链条的构建,促进标准统一和深化产业协作,最终驱动整个产业链的创新融合发展。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500