5月30日,记者从智元机器人获悉,旗下自研世界模型Genie Envisioner-Sim 2.0(简称GE 2.0)凭借优异的综合表现,在全球世界模型评测基准World Arena(世界竞技场)“感知与动作响应”榜单中位列第一。
何为世界模型?简单来说,就是能理解物理世界规律的AI大模型,比如机器人有了世界模型的能力,就知道杯子掉地上会碎、水往低处流、积木搭太高会倒等常识。
World Arena是当前世界模型行业的国际权威评测基准,由清华大学联合普林斯顿大学、香港大学、北京大学等8所全球顶尖高校打造,主要分为“感知与动作响应”和“数据引擎”两个核心赛道,通过16项细分指标和3类机器人实操任务,来考核具身智能对物理规律、三维感知、动作预判等理解能力,具备很强的学术公信力和产业参考价值。
本次智元GE 2.0参与的是“感知与动作响应”赛道评测,与英伟达最新模型DreamDojo、清华联合斯坦福的Ctrl-World团队等国内外AI顶尖团队直接竞争并最终夺冠。

智元GE 2.0多项指标处于领先地位。
记者从披露的技术文档中获悉,GE 2.0仅用20亿(2B)参数的模型,结果比英伟达、微软等超大参数的旗舰模型效果更优秀,也验证了在人形机器人应用方面,轻量化模型的适配性不逊于超大参数模型。
值得一提的是,智元团队并没有专门为比赛做针对性优化,只是用通用版本稍加调整就参赛了,相当于“裸考”拿冠军,说明GE 2.0本身泛化能力很强。
GE 2.0到底厉害在哪里?机器人能在“大脑”里搭建一个虚拟场景,可以反复尝试各种动作,犯了错也不会真的弄坏东西,等熟练掌握技能后,再搬到现实世界中使用。这样既省钱又安全,还能大大加速机器人的学习过程。
技术文档还提到了GE 2.0多个升级之处,比如长时序推演能力突破、数据回流反哺机制、真实世界高度一致性等方面。

智元GE 2.0的技术图示。
很多世界模型有个通病,预测的时间一长,画面就会变模糊、变形,就像做梦到后面越来越离谱。GE 2.0虽然也难以彻底杜绝这一问题,但画面清晰度下降的速度远低于同行产品。长时序推演能力突破,使得GE 2.0预测到50秒的场景,画质依然比不少模型前10秒还要好。
智元研发团队做了大量对比测试还发现,GE 2.0模拟出来的结果和真实世界中的表现高度吻合。不仅整体成功率对得上,团队还逐个案例做了详细比对,用数据图表严格验证了这一点。这也意味着,机器人在虚拟世界里学会的技能,搬到现实中大概率也能用。
同时,GE 2.0还内置了一个“裁判”系统,能自动判断每次虚拟练习的质量高低,把好的经验自动挑出来,反馈给机器人的“行动大脑”,帮它学得更快。实验结果表明,这种“自我进化”的方式确实让机器人处理多个任务的能力更强。
记者获悉,GE 2.0并非是单一模型,而是从具身数据到智能体平台全栈自研系统的一部分。
4月中旬,智元上线全球首个覆盖具身智能全域研究的真实场景数据集AGIBOT WORLD 2026,100%采集自商业空间、酒店、商超等真实世界。紧接着,Genie Sim 3.0仿真平台发布,一句话即可生成虚拟世界,将环境构建速度从小时级缩短至分钟级。另外,VLA基座大模型GO-2和世界模型GE 2.0一起构建出可交互、可训练、可评估的虚拟物理世界。
搭建好数据和仿真的基础后,智元发布零代码应用平台Genie Studio Agent(精灵工作室智能体),将视觉感知、运动控制、导航规划、视觉语言行动模型和强化学习工具链等复杂能力,封装成开箱即用的解决方案。
基于这一全栈自研系统,普通人只需在平台上通过拖拽方式,即可搭建属于自己的机器人应用。