9月15日,宇树科技宣布开源UnifoLM-WMA-0——跨多类机器人本体的开源世界模型-动作架构。宇树科技介绍,UnifoLM-WMA-0专为通用机器人学习而设计,其核心在于一个可以理解“机器人与环境交互”物理规律的世界模型。
该世界模型具备两大核心功能:一是仿真引擎,作为交互式仿真器运行,为机器人学习提供合成数据;二是策略增强,可与一个动作头进行对接,通过预测未来与物理世界的交互过程,进一步优化决策性能。
通俗而言,仿真引擎像一个虚拟训练场,可以生成大量合成数据供机器人学习和训练;策略增强可以预测机器人在真实环境中的“下一步”,为决策提供参考。这让人形机器人不需要每次都在真实环境试错,也能变得更“聪明”。
宇树科技在五个开源数据集上完成模型训练,测试结果显示,模型作为仿真引擎,可根据“当前图像”及一定数量的“机器人未来动作”,实现交互可控生成。

此外,宇树科技介绍,其世界模型也有能力实现长程任务的持续交互生成,生成结果与原视频对比如下所示:

宇树科技称,为了推进全球具身智能行业发展,宇树科技现将此世界模型-动作架构完整开源并持续更新,一起让通用机器人尽早成为可能。
在一众人形机器人企业中,宇树科技以强悍的硬件能力著称,但其在软件上的布局不容小觑。去年8月的2024世界机器人大会期间,宇树科技创始人、CEO王兴兴向上证报等媒体表示:“宇树科技对AI的投资比较克制,因为太烧钱了。”
同一问题,在一年后的2025世界机器人大会上,王兴兴的答案是,宇树在具身智能模型研发上依然保持谨慎投入。虽然宇树的公司规模已有了较大扩张,但放在整个行业里,尤其和大型AI公司相比,规模仍小得多,投入也相对有限。
在他看来,目前机器人的硬件总体来说是够用的,但距离“足够好”还有差距。要实现更大规模应用、更低成本以及更高可靠性,硬件仍需不断完善。
对比而言,具身智能模型研发仍是当前最关键的任务。王兴兴表示,具身智能模型现在不够成熟,相比整个行业的需求,机器人的AI能力依然远远不足。简单来说,如果有一天,在这个场馆里,人形机器人可以自由地走来走去,你随口对它说一句话,它就能帮你完成一件事,具备足够的泛化性,那才可以说是真正达到一个比较理想的临界点。
谈及训练数据,王兴兴称,大语言模型只要数据量足够大、质量足够好,模型性能就能快速提升。但在机器人领域,这反而是一个很大的挑战。即便积累了海量数据,并用它训练出一款模型,但放到实体机器人上可能依然无法很好地对齐。也正因如此,机器人领域对AI模型本身的能力要求,比语言模型要高一个等级。
但王兴兴认为,在具身智能模型领域,并不是资源多、资金多、人多,就一定能做出全球最领先的技术——过去的经验已经充分证明这点。很多时候,一个中小团队也有可能做出更出色的成果。