纯语言模型的能力或触顶,多模态融合才可能最终通往AGI(通用人工智能)?在专注基模研发和商业落地Agent(智能体)之间,该如何抉择?除了从闭源走向开源,大模型产业界在生态协同上还能做些什么?

“模型之问”
今年WAIC的重大创新,在于切中数学、科学、模型要害,提出“AI三问”。7月27日,由商汤科技承办的一场大模型论坛,邀请来自阶跃星辰、上海人工智能实验室、第四范式、智谱等大模型公司大咖进行技术交流,“模型之问”贯穿始终。记者发现,在这场基本集齐上海“四大基模”的现场,多个灵魂拷问后,大模型上海队的抉择,反倒凸显出它们“留在牌桌”上的暂时领先优势。
全球出圈
自ChatGPT在2022年11月30日一夜爆火后,大语言模型厂商们在对标路上狂奔两年。然而它们所有的努力,几乎被今年初发布的DeepSeek-R1抹平。
好在行业反转很快出现。权威机构预测,语言模型将在2028年耗尽人类文本数据。与此同时,DeepSeek-R1等语言大模型不时传出边际效益递减趋势。基于此,业内愈发意识到,多模态大模型可能是迈向AGI的入场券。为此,OpenAI、谷歌、Meta等科技巨头陆续发布了GPT-4.5、Gemini 2.5 Pro、Llama 4等多个性能强大的多模态基模。
但巨头们没想到,今年以来,来自中国上海的多模态模型此起彼伏地出圈。
如成立于2014年的商汤科技,以计算机视觉起家,近两年果断进行大模型技术革新,是极少数能迅速转弯、从视觉算法跨越到大模型技术周期且保持算法领先的AI公司。今年4月,商汤发布新一代6200亿参数多模态大模型“日日新V6”,其多模态综合能力看齐GPT-4.5,局部还有超越,并且率先引入长思维链,将多模态与深度思考结合起来。比如,面对四张描绘“乌龟羡慕长颈鹿脖子长”的连环画,“日日新V6”能完整讲述故事,并在结尾升华为“长颈鹿有它的优势,但你也有你的价值”。
“日日新V6”发布短短三个半月后,商汤在此次WAIC上发布其“日日新V6.5”。商汤科技董事长兼CEO徐立说,相比V6版本,“日日新V6.5”的强化学习效率增加了40%,性价比提升了三倍,使模型应用有更大利润空间。“以单年维度看,一年内模型推理成本下降十倍大有可能”。

商汤在此次WAIC上发布其“日日新V6.5”
取得如此战绩,需要底层架构、高质量数据清洗、上层算法的整体创新。
相比于积淀深厚且迅速转向的上海老牌AI公司,不到4岁的Minimax和刚满2岁的阶跃星辰,则在创业之初就锚定多模态。
如阶跃星辰,坚信多模态是通往AGI的必经之路,2023年4月成立迄今,已发布基模超过20款,且多模态占比70%,是业内公认的“多模态卷王”。7月25日,阶跃星辰发布其新一代基模Step 3,拥有强大视觉感知和复杂推理能力。比如,能敏锐识别图中隐蔽的字母;又如,即便菜单反光严重,仍能准确还原菜单内容;再如,结合微信群聊天记录,输入购物小票,模型即能聪明计算AA制消费分摊。
而上月,上海独角兽MiniMax则发布了全球首个开源大规模混合架构推理模型——MiniMax-M1,目前在权威评测榜单已位列全球开源模型第二;MiniMax同期发布的视频生成大模型Hailuo 02,因实现了对物理世界规律的极致理解,可直接叫板谷歌第三代视频生成模型Veo3。过往AI视频模型中难以解决的体操、杂技等复杂运动中常出现的运动主体肢体错乱、五官扭曲等“翻车”状况,在Hailuo 02中都被消灭。目前,MiniMax视频生成应用Hailuo AI已力压海外的Sora、Runway等产品,持续保持全球第一,并帮助200个国家和地区的创作者生成了超过3.7亿个视频。


谷歌Veo3和Hailuo 02各自生成“猫跳水”视频对比,谷歌Veo3视频中猫直接入水,Hailuo 02视频中的猫在空中完整翻转三周半后入水,动作全程符合逻辑。
晒“朋友圈”
尽管高频出圈,仍要面临选择——是向左,持续投入基模研发?还是向右,快速构建商业闭环?对于这样的“模型之问”,无论是来自北京的智谱、第四范式,还是大模型上海队,都有相同态度——既要又要。
正如同属国内大模型第一梯队的智谱清言背后智谱华章科技股份有限公司总裁王绍兰所言:持续的基模研发,关乎决心。“但如果大模型一直做纯理论研究而不做商业化落地,怎么证明大模型真正改变产业呢?”
事实上,迫于内部成本与外部竞争,国内外大模型公司无不在加速收敛。国内百模大战也已经收缩为个位数竞争。大模型上海队在基模研发上、造血盈利上都不拉垮,这属实可贵。
比如,商汤科技应用于代码、办公领域的生产力工具“小浣熊”,现已拥有超过1000万家行业用户。今年WAIC大会,商汤展区秀出其“朋友圈”,都是日日新大模型所赋能的智能硬件,包括了元萝卜AI下棋机器人,以及钛虎、傅利叶、LUMOS鹿明等多个品牌的人形机器人,以及小米眼镜等,涉及教育培训、家庭陪伴、景区导览等多个应用场景。

小浣熊已拥有超过1000万家行业用户

傅利叶机器人是商汤重要客户
徐立还特别演示了日日新大模型赋能下人形机器人讲解《长安的荔枝》案例。机器人讲解时,可自行翻页PPT,其解说风格诙谐幽默,可以被打断,可识别意图,还有全局记忆,即便被多次“扯远”,依旧能回到最初话题,应用落地潜力巨大。

具身智能讲解“长安的荔枝”
阶跃星辰的商业化进程也不错,已与车、手机、具身智能领域的头部厂商合作,部分旗舰机型进入量产,包括吉利银河M9、曾被马斯克点赞的家庭情感机器人TCL AI Me等。阶跃日前也公开透露,今年全年收入预计近10亿元。
模芯联动
“大模型发展至今,已经不是一个单纯的技术问题,也不再是单家公司做某一款产品的问题,而是需要共同创造一个社区,以通往AGI的未来,生态发挥着重要作用。”各模型公司道出心声。
在此次“模型之问”论坛上,商汤科技联合华为、库帕思、海光、寒武纪、曦望Sunrise、壁仞科技、麒麟软件、摩尔线程等十余家国产生态伙伴,共同发布“商汤大装置算力Mall”。此举,在当前大模型时代对算力需求持续激增、算力供应链安全挑战日益严峻背景下尤显意义。
种种迹象表明,国产模型与国产算力之间,正在加速双向奔赴。7月25日,阶跃星辰发布Step3时,也同时宣布联合近十家芯片及基础设施厂商,发起“模芯生态创新联盟”。其中,燧原科技受邀成为首批成员,且运行Step 3也已初步实现。据测算,Step 3在国产芯片上“跑”,模型成本是友商(DeepSeek)的三分之一。
根据燧原科技创始人赵立东的判断,未来模型对推理算力的需求,将是训练算力的百倍甚至千倍。与此同时,算力基础设施正在走向系统化,相关的软硬件技术,包括超节点、网络技术、全光互联、低精度、分布式并行计算、虚拟化等,已不再是芯片公司单独可以完成,而是需要跨行业的协作,多方聚力,构建系统化解决方案。赵立东说,燧原科技拥抱与众多伙伴的合作,已在算力基建、算力调度、算力服务、算力应用等多个方面深入携手,共同在国产智算关键领域寻求破局。
但大模型发展是一场长跑,其决赛季远未到来。面对平均每三个月就能带来“行业一震”,大模型上海队都表示,其目标只有一个——保持敬畏,继续留在牌桌上。