• 最近访问:
发表于 2026-05-21 12:36:40 股吧网页版
OpenAI发布MRC、智谱落地ZCube 大模型厂商同步押注下一代网络架构
来源:证券日报

  在极致追求Coding效果的同时,智谱也在提升AIInfra上界。

  过去几年,AIInfra的竞赛长期集中在单一维度:部署更多、更快的GPU。然而,当推理集群规模扩展到千卡、万卡级别后,一个新的瓶颈开始显现——每处理一次用户请求,集群内部都需要持续、高频地互相传递大量中间数据,网络开始成为决定整个系统吞吐量、响应速度和成本的关键变量,甚至成为超大规模AIInfra的主要瓶颈。

  近日,智谱联合驭驯网络与清华大学,在GLM-5.1线上生产集群中完成了新一代网络架构ZCube的规模化落地。在线上GLM-5.1coding场景中,在保持GPU算力、软件栈与应用不变的前提下,ZCube节省了33%的交换机与光模块成本,同时将GPU平均推理吞吐量提升了15%,TTFTP99降低了40.6%。

  这组数字意味着什么?同样的硬件投入,智谱的GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言,这直接对应更高的并发上限、更低的排队延迟,以及在流量峰值下更稳定的用户体验。

  成本端的变化同样显著。ZCube架构所需的交换机和光模块比原有方案少三分之一。规模越大,这个差值越可观。

  更关键的是,这项升级的边际成本接近于零:GPU不换,服务器不换,软件代码不改,纯粹是组网架构的替换。这意味着智谱已有的算力资产在同等投入下释放了更高的产出,相当于存量资产的效率重估。

  值得一提的是,ZCube技术被国际顶会ACMSIGCOMM2025评价为“显著改变整个行业对网络的认知方式”,此次在智谱的落地实践是ZCube架构首次在真实大规模推理集群中完成生产验证。

  在业内看来,在大模型竞争日趋激烈、算力资源紧张的背景下,这次实践提供了一种不同的思路:与其堆更多GPU,不如让现有GPU跑得更顺。随着大模型推理集群规模的扩张,这一影响将被进一步放大——网络瓶颈会随集群规模指数级加剧,而ZCube这类扁平化架构的优势也将进一步凸显。

  同样在本月,OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom,向业界发布了MRC(MultipathReliableConnection)协议——一种通过多路径并发传输、在微秒级绕过链路故障的新型网络传输协议,并已部署在其最大规模的超算集群中。不同的是,MRC在协议层发力,通过多路径并发传输对抗网络拥塞;ZCube则在架构层动刀,从拓扑设计上消除拥塞产生的根源。前者优化“交通规则”,后者重新规划了整张“路网”。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500