• 最近访问:
发表于 2026-04-06 12:22:20 股吧网页版
算力堪比三峡发电!上海万卡GPU集群如何助跑AI大模型 记者实探来了
来源:财联社 作者:财联社记者 黄心怡

  《科创板日报》4月6日讯(记者黄心怡)走进位于上海松江的仪电智算中心,机房内风扇轰鸣不止,上万张GPU设备整齐排列,与纵横交错的高速网络线缆共同编织出一张庞大的算力网络。每张芯片每秒可执行数十万亿次运算,它们两天汇聚的计算能量,相当于三峡水电站一台机组一小时的发电量。

  算力是AI发展的根基,而要让上万张GPU卡高效协同为一个集群运转,绝非易事。《科创板日报》记者了解到,目前上海仪电旗下智算科技团队已成功实现集群99.99%的超高可用性,相当于全年总故障时间缩短至1小时内。

  《科创板日报》记者获悉,该万卡集群已适配多种国产算力卡,具备多元异构算力的融合与优化调度能力。

  ▍万卡级GPU集群稳定运行

  2023年,上海仪电成立智算科技,牵头布局“万卡集群”,搭建智算云平台和公共服务体系。

  算力集群不仅是加速卡的堆叠,还需要复杂的高速网络和强大的调度软件,它与AI大模型的关系好比“电与发电机”。“要让接近万卡算力的芯片配上高效的通讯网络,再结合相应的存储设备,能够像一台电脑这样,成为一个集群整体高效运转,难度相当大。”智算科技董事长、总经理孙跃坦言,“而更难的是,这1万张卡组成的集群,还要7×24小时不间断地提供算力服务。”

  据了解,AI算力底座中算力芯片的故障率远超传统的IT设备。而在大模型训练时,哪怕仅仅1分钟的算力中断,都可能会造成几十个小时的训练结果损失。调度万卡,就像是让上万架无人机在密集的空中高速穿梭,每张芯片都容不得一毫米的误差。

  面对万卡级GPU集群稳定运行难的痛点,智算科技这支平均年龄仅32岁的“梦之队”爆发出极强的战斗力。团队曾连续79天吃住在机房驻守,为了0.1%的性能提升每天熬红双眼反复打磨代码,开展算法攻坚。面对紧急任务,他们打破常规,将线性流程优化为“并行施工+边测边调”,抢占每一秒进度。

  据悉,团队成功实现了集群99.99%的超高可用性,相当于全年总故障时间缩短至1小时内,这有力支撑了某大模型公司等多模态大模型领先全球的训练,成功避免了算力中断可能造成的巨大损失。

  ▍融合异构芯片把国产算力用起来

  据了解,智算科技万卡集群已成功适配多种国产算力卡,实现了多元异构算力的融合与优化调度。孙跃介绍,在很多任务中,国产设备发挥了至关重要的作用。

  “不同业务、不同行业对芯片的需求各不相同,而各类国产算力芯片在细分领域也各具优势。通过异构算力的融合,我们把国产算力真正用了起来,可以在同一底座、同一云平台的基础上,更好地满足不同垂类客户对算力基础设施的差异化需求,进一步发挥国产软硬件基础设施的潜力。”

  目前,智算科技万卡集群的使用率已接近100%,基本实现建成即满负荷运转。在某新型科研机构项目中,团队仅用一周便完成近千卡集群的建设与交付,跑出行业领先速度,随后又成功部署万卡集群算力,有力保障国家重点科研任务的推进。截至目前,已具备万卡规模高性能算力集群的部署与交付能力。

  智算科技还首创“动态感知调度方案”,使训练效率飙升91%,每年为国家节省的算力成本相当于新建3个数据中心,实现了混合架构万卡集群调度技术的自主可控。

  今年全国两会上,“算电协同”首次被写入政府工作报告,成为国家级战略性新基建工程。智算科技也在这一领域积极开展探索。

  孙跃透露,“在基础设施和机房建设过程中间,我们进一步扩大对绿电的使用比例,并通过液冷集群,提高整个能源的使用效率,降低PUE值。另一方面,我们也在和上下游的合作伙伴进行探索。比如,结合淞沪地区海上风电资源,实现风电直接驱动的海底数据中心,从而来降低算力成本,也是当前开展的算电协同的重要尝试。”

  ▍推动国产算力生态协同

  当前,新一代人工智能快速发展,算力需求持续激增。“越来越多的算力不仅渗透到千行百业,甚至开始走进千家万户。从近期备受关注的AI Agent、智能体工作流到OpenClow等,发展速度往往超出想象。这不是一个线性的过程,而是阶跃式演进,未来虽难以准确描述其具体目标,但发展的节奏只会越来越快。”孙跃称。

  谈及未来规划,孙跃表示,一方面要提高算力基础设施的建设效率,以及万卡集群的使用效率,这是在基础设施侧需要重点攻关的方向。

  另一方面,上海仪电将打造开放、灵活、弹性的智算云服务平台。“去年在世界人工智能大会上,我们发布了智算平台YI CLOUD,旨在面向各类不同领域的用户,提供更普惠、更便捷的算力服务。这种算力服务依托于智算云,提供的不仅是算力,还包括行业所需的语料、模型、智能体等能力的适配,帮助用户在单一垂直领域更高效地使用算力。”孙跃称。

  此外,上海仪电还在生态建设上发力。

  “作为一家平台型的链主企业,上海仪电希望发挥生态链接的作用,牵引产业链上下游软硬件厂商,包括GPU企业、网络通讯、模型企业、智能体企业等,带动合作伙伴实现国产算力生态协同的创新方案,以赋能国产大模型以及相关AI+应用,这是我们未来发展的另一重点。”孙跃表示。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500