过去一年,国产化已成为人工智能领域的“必答题”。然而,真正的挑战并不在于谁喊得早,而在于能否解决一个更具现实意义的问题:在模型规模持续膨胀、应用深入真实业务场景的背景下,国产算力如何才能实现长期、稳定的运行保障。
在当前全球算力供应链不确定性加剧的背景下,这一挑战已远超技术路线之争,直接触及人工智能产业能否持续稳健扩张的根本所在。
商汤科技给出的答案,显得尤为克制和务实。在过去一年中,华为昇腾、寒武纪、沐曦等多家国产芯片,被同时纳入商汤的AI体系。这并非简单的“点亮”兼容,而是深度集成至同一套AI基础设施、同一套模型架构,以及同一条应用交付链路之中。这背后,清晰地展现了商汤围绕“大装置—大模型—应用”所构建的三位一体战略。
在这一战略下,国产化不再是被动应对外部环境的权宜之计,而是被拆解为一项长期任务:算力层面,要构建多元、稳定的国产算力供给;模型层面,要让多模态大模型真正跑在不同国产芯片之上;应用层面,则必须把算力能力转化为客户可用、可交付的产品。
当华为昇腾、寒武纪、沐曦被同时接入,商汤真正关心的,或许并不是某一款芯片的上限,而是如何让国产算力在真实业务中跑得久、跑得稳。
助力国产算力从“可用”到“好用”
在大模型训练与推理场景中,算力瓶颈早已不只取决于单卡性能。异构芯片之间的调度复杂度、跨域训练的稳定性,正在成为影响整体算力效率的关键变量。
基于这一判断,商汤突破口放在基础设施层。作为商汤的 AI 云原生平台,商汤大装置试图解决的,正是异构算力规模化使用中的系统性问题。通过提供统一调度、弹性扩展和高可靠性的 AI 基础设施服务,商汤大装置希望以更高的性价比,推动大模型能力在真实业务中的落地。
目前,寒武纪、壁仞、沐曦、华为昇腾、摩尔线程等多家国产芯片,已完成与商汤大装置的深度适配,并支撑商汤“日日新”多模态大模型体系的训练与推理。这意味着,国产 GPU 首次在千亿参数级任务中,接受系统级、工业级的持续运行检验。
但真正的难点,并不在“接入”本身。不同芯片在架构设计、软件栈上的差异,使统一训练与调度的复杂度显著上升。
为此,上海AI实验室率先探索并研发了DeepLink超大规模跨域混训技术方案,通过训练加速、异构通信、并行策略等核心技术,打破芯片架构差异带来的协同壁垒,重构计算资源调度体系。
而商汤大装置发布基于DeepLink的异构混合调度方案,将DeepLink深度融入商汤大装置核心能力体系。通过这一方案,多种国产芯片之间可实现协同通信与统一调度,并自动进行并行策略优化和负载均衡,真正做到“不同芯片,同一平台”的协同工作,释放异构集群的计算潜力。
在集群层面,商汤大装置与华为昇腾384超节点率先完成全面适配。超节点(SuperPod)是一种通过高速互联技术,将多个GPU/NPU整合为统一计算单元的新型架构,解决AI大模型训练中的算力协同与通信效率问题。围绕昇腾384超节点,商汤在调度优化、跨 POD 训练稳定性和多层级故障恢复方面进行了针对性设计,使多租户、大规模、弹性AI云服务成为可能。
在推理环节,商汤还与记忆张量合作,在国产 GPGPU 上跑通了业内首个以“记忆—计算—调度”一体化为核心的 PD 分离商用推理集群。在真实 C 端负载下,该方案实现单卡并发效率提升20%、吞吐提升75%,综合推理性价比达到英伟达A100的150%,为高性能模型的大规模落地打开了新的降本增效空间。
此外,商汤联合华为、库帕思、海光、寒武纪、曦望 Sunrise、壁仞科技、麒麟软件、摩尔线程等十余家国产厂商,共同发布“商汤大装置算力 Mall”。这一平台试图构建一个“算力超级市场”,让开发者和企业像选购商品一样,自由组合算力资源、平台工具和行业模型服务。
在商汤科技看来,“商汤大装置算力 Mall”的价值不仅在于降低 AI 应用门槛,更在于为用户提供灵活、自主的国产算力选择路径,从系统层面削弱对单一海外技术体系的依赖,推动中国 AI 产业向更加自主、可控的方向演进。
低成本的视频生成国产化生态
在多模态应用中,视频生成对算力的要求几乎是一个极端场景。相比文本和图像,视频不仅引入了“时间”这一维度,使数据规模呈几何级增长,还对连续性、物理一致性提出更高要求,模型必须在极短时间内完成大量推理计算。这也使得视频生成成为当前所有 AI 模态中,算力消耗最高的领域。
今年,商汤开源了支持实时视频生成的推理框架 LightX2V,试图解决的正是这一问题。LightX2V 的设计目标非常明确:把视频生成从“实验室效果”拉进可规模化部署的工程体系。
在具体实现上,LightX2V 通过步数蒸馏、低比特量化、稀疏注意力、特征缓存和张量卸载等一系列工程化手段,将显存需求压缩至 8GB 以下,使入门级消费级显卡也具备运行条件;在速度上,框架支持最高 1:1的实时生成能力,即 5 秒视频可在 5 秒内完成生成。
在国产化适配上,LightX2V 设计了强兼容的国产化适配插件模式,可快速完成各类国产硬件的适配,目前已支持寒武纪、沐曦、海光、昇腾等多款芯片。与此同时,为更充分释放国产算力特性,商汤在模型侧同步调整,Seko 系列模型在设计阶段就引入低比特量化、压缩通信和稀疏注意力等硬件友好机制,使整体推理性能提升超过 3 倍。
据悉,适配完成后,商汤与寒武纪还将在算力利用率与成本效率、大规模并行处理能力等多个方向进一步展开深度优化,进一步降低多模态AI的使用门槛并提升整体体验。
由于在加速视频创作上优势明显,可实现极致性价比,截至目前,LightX2V 的累计下载量已超过 350 万次。这一数字不只是开源项目的热度指标,更反映出一个趋势:在视频生成这一场景中,国产算力开始拥有低成本的国产化生态。
国产化进入产品与交付阶段
相较于基础设施和模型层面的技术验证,产品与项目交付更能检验国产化的“含金量”。是否被持续使用、是否进入业务核心流程,往往比单次跑通技术指标更具说服力。国产化能否成立,最终要看它能否在真实场景中替代、并长期运转。
在应用层,商汤将这一判断率先落在生成式内容生产上。12月15日,商汤科技基于其在生成式 AI 与多模态交互领域的积累,发布 Seko 2.0——行业首个面向多剧集生成的智能体。在长视频生成场景中,角色一致性、画面风格稳定性始终是制约规模化生产的核心难题,而Seko 2.0在多剧集视频生成的一致性方面展现出显著优势,其背后依托的是商汤自研的日日新Seko系列模型,包括SekoIDX、SekoTalk等图像与视频生成多模态模型所构建的技术底座。
更重要的是,这套能力已完成在国产算力上的适配。商汤日日新 Seko 系列模型已支持寒武纪等国产 AI 芯片,在 AIGC 核心场景中实现了从语言模型到多模态生成的关键跨越。这不仅是技术协同的深化,更是国产AI生态的重要完善,为视觉内容的创新开发提供了更坚实、自主的底层支撑。
在终端侧,商汤旗下 AI 智能助手“小浣熊”已完成多种国产芯片的适配,并针对个人 PC 使用场景进行专项优化。在端侧运行条件下,其模型精度与云端保持一致。同时,小浣熊也已适配多种国产芯片一体机方案,形成软硬件协同的全国产化部署路径,为对数据安全和自主可控要求较高的用户提供现实选择。
此外,在计算机视觉、金融、医疗以及“大装置”等私有化业务中,商汤也已完成国产芯片的适配与交付。在外部环境不确定性加大的背景下,企业选择国产算力并非单一动因,合规要求、供应链稳定性以及长期成本结构共同构成决策逻辑。而能否在产品与交付阶段顺利落地,正是国产算力跨越这一门槛的关键。
从大装置、大模型到应用层,商汤与多家国产 AI 芯片企业展开深度合作,在实际项目中磨合能力边界,形成“技术互补、资源共享、场景互哺”的协同模式。这种以交付为牵引的合作路径,不仅推动了国产算力的可用性提升,也在一定程度上缓解了市场对供应链不确定性的担忧。