6月12日,第八届北京智源大会在北京中关村国际创新中心开幕。本届大会汇聚200余位专家学者、40余位AI企业CEO、创始人与首席科学家,世界模型、通用智能体、具身智能、AI自进化等成为高频议题。
过去两年,大模型让机器会说更会写,也会生成图像和视频。但机器人要进入工厂、仓储、酒店、家庭等真实场景,只“看见”还不够。它还要知道,自己这一伸手、一转身、一夹取,会不会碰撞、会不会掉落、会不会把后面的路堵住。换句话说,机器人要真正可用,得先有点“心里有数”。
机器人为什么要先“想一想”
在星源智展区,一块被打乱的华容道棋盘,把这个问题讲得很直观。人玩华容道时,往往会在脑子里先走几步:这块挪开后,空格到哪里,下一步还能不能接上。机器人面对的也是类似问题。它不能只识别棋子位置,还要理解约束关系,并在动作执行前预估后果。

星源智在2026智源大会现场展示华容道世界模型互动。(星源智供图)
北京星源智机器人科技有限公司(简称“星源智”)在大会上发布自研具身交互世界模型ω-EVA。按照公司介绍,EVA对应Envision、Verify、Act,即“预演、验证、行动”——机器人先提出候选动作,再在潜在特征空间里预判这个动作会带来什么变化,最后据此修正动作。它的重点不是生成一段好看的未来视频,而是把“如果这样做会怎样”反馈给当下动作。
星源智联合创始人、智源研究院具身交互世界模型研究中心负责人孙振国在演讲中提出,具身智能不只是会看、会听、会生成动作,还需要在行动之前理解交互后果,并在真实反馈到来之前修正自己。这个判断,也是当前世界模型从研究概念走向机器人控制链路的关键变化。

星源智联合创始人、智源研究院具身交互世界模型研究中心负责人孙振国在2026智源大会介绍ω-EVA。(星源智供图)
技术趋势:世界模型从“预测未来”走向“修正行动”
世界模型并不是一个孤立的新词。智源研究院判断,人工智能正从大语言模型、多模态模型,继续向以“预测下一个物理状态”为核心的世界模型演进。通俗说,大语言模型擅长预测下一个词,世界模型则要学习物理世界下一步会怎么变。
国际上也有相似趋势。Meta AI发布V-JEPA 2时介绍,该模型通过视频学习物理世界表征,并用少量机器人数据进行行动条件训练,以支持机器人在新环境中完成抓取、放置等任务。英伟达Cosmos把世界基础模型用于“物理AI”开发,服务机器人和自动驾驶的仿真、数据生成与策略训练。Google DeepMind的Genie 3则展示了生成可实时交互动态环境的路线,用于训练和评估智能体。
这些路线各不相同,有的侧重视频生成,有的强调隐空间表征,有的用于仿真和数据引擎。共同方向却很清楚:让AI不仅知道“眼前是什么”,还要知道“动作之后会发生什么”。星源智ω-EVA强调的交互式路径,则进一步把世界模型放进单次动作决策中,让它参与动作修正。换句话说,未来不是生成给人看的,而是反馈给机器人用的。
如何落地:从演示台到真实任务还差什么
大会现场,星源智还展示了动态产线分拣、机器狗清洁官、机器人递送咖啡等场景。相比华容道,这些任务更接近产业现场:传送带上的物料在动,公共空间中的垃圾位置不固定,递送咖啡要求路线、姿态和交互都稳定。机器人要完成的不再是单个动作,而是一整条“感知—判断—执行—反馈”的任务链。
这也解释了为什么端侧能力被反复提及。星源智展示的N5、T5和算力背包等产品,意在把具身大脑、导航、世界模型和硬件算力组合到机器人本体上。公司创始人兼CEO刘东在会间交流中判断,大模型只有真正部署到机器人端侧,进入实时感知、决策和控制链路,才能转化为可用的具身智能能力。
不过,世界模型热起来,并不意味着机器人马上就能大规模走进所有场景。据专业人士介绍,行业仍面临数据集不统一、物理一致性评估不足、实时控制中算力与性能取舍、长时序误差累积等挑战。刘东也把当前具身智能类比为十年前的自动驾驶:大家都瞄准高阶目标,但真正稳定落地的基础能力仍在形成中。

星源智展示RoboBrain Pro×DECO动态产线分拣场景。(星源智供图)
业内人士认为,世界模型的产业价值,不在于又多了一个炫目的AI名词,而在于它能否让机器人从“看见指令后直接动手”,推进到“动手前先推演、动手中能修正、动手后会学习”。这一步如果走通,机器人进入真实任务闭环才会更接近现实。大模型给机器装上了语言能力,世界模型要补上的,是面对物理世界时那一点朴素但关键的“心里有数”。