中经记者曲忠芳北京报道
“过去半年甚至一年时间里,视频生成模型被广泛误认为世界模型,误用的源头是Sora最初发布时使用的表述是World Simulator(中文直译:世界模拟器)——这更多是指对物理世界进行模拟,而不是具备对下一个状态趋势的完整预测,视频生成模型不等于世界模型。”智源研究院院长王仲远在接受《中国经营报》及其他媒体采访时如是指出。在6月12日开幕的第八届北京智源大会上,王仲远针对“世界模型”正式发布了智源研究院的定义与理解。
记者了解到,北京智源大会是由智源研究院主办的年度AI行业盛会,甚至被业界冠以“AI春晚”之称。在本届大会上,多名图灵奖获得者、中国科学院院士、30岁以下青年科学家、AI企业的创始人和CEO参与并进行了200多场演讲和分享,线下参与观众超过10000人。
世界模型技术路线分为四类
王仲远表示,“世界模型是面向真实物理世界的下一代基座模型”,以“预测下一物理状态”为核心,代表着人工智能的下一个重要范式跃迁。
智源研究院认为,现有世界模型技术路线分为四类:第一类是以语言为中心的世界模型,包括VLM(视觉语言模型)、VLA(视觉语言动作模型),模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,如视频生成类模型,在视频空间中学习视频或图像,学到的是像素描述的世界。
第三类是以三维结构为中心的世界模型,包括3D重建以及斯坦福大学教授李飞飞团队的World Labs Marble模型。不过需要指出的是,模型重建3D空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,比如图灵奖得主杨立昆团队的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
王仲远指出,世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视觉、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。
与此同时,王仲远强调,世界模型仍处于早期形态,包括悟界·Emu3.5及其他现有模型处理的模态还是文字、图像、视频,虽然具有一定的对时间和空间的长时序理解能力,但对于真实物理世界的物理常识及真实世界的模态处理还没有拓展和完成。“不管是国内,还是国外,世界模型都还处于早期,特别希望行业能够一起扎实把世界基座模型构建出来。”
世界模型评测体系仍待完善
基于对世界模型的定义和理解,王仲远透露,目前智源研究院正在研发悟界·Physis世界模型,以物理空间建模实现下一个物理状态的预测为中心,预计下半年会持续向行业开放训练成果,在训练完成后开源开放。
围绕世界模型的进一步发展,王仲远认为,当前行业仍缺乏一套严谨、系统的评测框架。“世界模型目前缺乏非常严谨的评测框架和体系,所以悟界·Physis不仅会有研发,下半年也会提出评测框架,围绕下一个物理状态预测,对世界模型需要有更多系统性评测。”他指出,现阶段不少世界模型评测仍以视频生成能力为重点,但这并不能代表未来世界模型作为基座模型的完整核心能力。
在王仲远看来,判断一个面向真实物理世界的世界模型是否具备关键能力,核心仍要回到“能不能对下一个状态进行正确预测”。他举例称,一瓶水或一杯咖啡放在桌子边缘,在跌落时会产生怎样的物理状态和影响,人类往往“一看就知道”,这正是人类世界模型所具备的预测能力。类似的能力还体现在更复杂的场景中。比如,一个3岁小朋友正在睡觉,厨房声音很大,家人只需挥一下手,其他人就能理解应该关门。王仲远认为,这种基于当前真实物理世界状态形成的预测、规划和决策能力,正是未来世界模型需要具备的能力。
他进一步表示,智源已经在构建相关评测数据集,例如开冰箱、开洗衣机、开微波炉等日常场景中,不同设备存在旋转式、按压式、触碰式等不同交互方式,现代人工智能模型是否能够理解并采取相应动作,仍需要更系统的评估。再如,加热饭菜时是否知道铁碗不能放进微波炉,因为可能产生火花,这类物理世界常识对人类而言并不复杂,但对机器人的“大脑”而言仍是挑战。
针对业界广泛关注的训练数据瓶颈问题,王仲远坦言,世界模型的数据“肯定是缺乏的,或者是核心的问题”,尤其是真实物理世界数据仍然不足。传统物理仿真、游戏引擎虽然可以提供一定模拟数据,但由于人类掌握的真实物理知识、引擎规则和算法都不完备,仿真始终难以达到真正的100%。因此,智源将在悟界·Physis训练中增加更多真实物理规律、物理知识、与真实物理相关的视频和科学数据,使模型更加贴近真实物理世界。