• 最近访问:
发表于 2026-06-13 17:13:10 股吧网页版
2026智源大会|AI下一站:从预测Token到触达物理世界
来源:北京商报

  2026年,人工智能和真实世界的交集越来越多。早年大语言模型处理文字,多模态模型引入图像、音频等,接下来解决的就是真实物理空间的规律和常识。

  6月12日,智源研究院(以下简称“智源”)院长王仲远在2026北京智源大会上,分享了智源在基座模型、智能体、基础软硬件生态方面的最新进展。会场外,北京商报记者在与王仲远的对话中,得到了智源关于下一代AI的几个关键答案。

  从“预测下一个词”到“预测下一个状态”,他认为人工智能正经历一场重大范式变革,但火爆的世界模型仍然处在早期形态,甚至现在世界模型领域所有夺冠的模型都还不是真正的世界模型。从大语言模型到登上《Nature》正刊的多模态模型“悟界·Emu”,智源试图再次定义AI的下一站。

  世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,还能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。

  概念混战中智源做分类

  过去半年,世界模型异常火热,但概念的误用和混淆同样严重。王仲远告诉北京商报记者,目前行业对世界模型的定义还没有达成共识,“很多人把视频生成模型等同于世界模型,这是被误用的源头”。

  他解释,OpenAI发布Sora时使用了“World Simulator(世界模拟器)”的表述,Sora更像是进行世界模拟,而没有具备完备的下一个状态预测能力。王仲远举例,视频生成模型可以生成“一群猪在天上跟飞机一起飞”的画面,因为它的训练数据包含大量科幻电影,目标本身不是为了真实物理世界基座模型,只是通过大量视频学习捕捉到了一定的世界知识。

  面对混战,智源提出了自己的分类框架。王仲远将现有世界模型技术分为四类:第一类是以语言为中心,包括大语言模型、VLM(视觉-语言模型)、VLA(视觉-语言-动作模型),它们把其他模态、其他能力映射到语言空间;第二类是以像素为中心,如Sora、Seedance等视频生成模型,预测的是下一个画面帧;第三类是以三维结构为中心,包括3D重建以及斯坦福大学教授、World Labs联合创始人兼CEO李飞飞团队的World Labs Marble模型;第四类是以视觉表征为中心,比如2018年图灵奖得主杨立昆的JEPA系列模型。

  不过,他认为这四类模型距离真正面向物理世界的基座模型都还有很大距离。智源正在尝试一条可能被视为“第五类”的路径,即以语言为中心的分类和以视觉表征为中心的分类的融合,也叫作潜空间表征。

  王仲远认为,“将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型真正下一个可能的路径”。

  这一思路与智源自身的研发一脉相承。悟界·Emu3.5正是将各种模态压缩后进行原生统一训练。同时他也坦承,这条路线“没有完全走通”,暂不急于分类。

  谈及李飞飞将世界模型的技术路线分为渲染器、模拟器和规划器三类,王仲远表示,李飞飞的分类有她的逻辑,但智源的分类“更具通用性”,可以从不同切面看待,“未来不排除走向大一统”。

  评测框架在路上

  在智源看来,世界模型的本质是“预测下一个物理状态”。用王仲远的话说:“下一个Token预测是大语言模型的核心,下一个物理状态是世界模型的核心。”

  他告诉北京商报记者,当前世界模型缺乏完备的评测方法和框架。“很多评测都是以视频生成为重点,这不代表世界模型作为基座模型的核心能力。”他直言,现在世界模型领域夺冠的模型,都还不是未来真正的世界模型。

  在王仲远看来,判断一个世界模型好坏的标准很简单:它能不能预测真实物理世界的下一个状态?他举了一个例子:一个3岁小朋友正在睡觉,厨房传来很大的声音,有时候只要挥一下手,家人就知道应该关门。基于当前真实物理世界状态,甚至都不需要说话就知道是什么意思。这些都是人类真实世界模型具备的预测、规划和决策能力。

  也就是说,面向真实物理世界的模型一定要包含Next Physical State Prediction(下一个物理状态预测),能否对下一个状态进行正确预测。

  智源计划在2026年下半年推出自己的评测框架,王仲远说:“我们已经有了一些评测的数据集,像开冰箱、开洗衣机、开微波炉(旋转式、按压式、触碰式),现代人工智能模型能不能很好地理解并采取相应的预测和识别。”

  悟界·Physis是智源正在研发的世界模型,由22岁的陈博远带领团队打造,这位北京大学青年学者是逆矩阵创始人、国际顶会ACL最佳论文得主,担任智源行为世界模型创新中心负责人。

  王仲远向北京商报记者表示,“因为需要理解真实物理世界,这款世界模型在训练的时候增加了很多真实的物理规律、物理知识,跟真实物理相关的视频、科学的数据,能够更加贴近真实的物理世界”。

  “追问”大脑的秘密

  当AI从数字世界走向物理世界,医学是检验实际价值的重要场景之一。强化学习奠基人、图灵奖得主安德鲁·巴托在智源大会现场分享了他感兴趣的研究方向之一:强化学习在医学领域的决策优化,“用于慢性疾病的临时延长治疗,决策过程有可能得到改进”。

  巴托强调,“强化学习与神经网络的计算研究从一开始便紧密交织,二者‘均发端于大脑如何运作与学习的假说’,而深度强化学习的计算能力与大脑奖励系统的最新成果相结合,指明了下一轮进展的方向”。

  当巴托在台上讲解强化学习与大脑的关系后,王仲远公开了智源在神经科学领域的最新进展:悟界·Brainμ1.0,“代表我们将Next Token Prediction扩展到了神经科学领域”,他下了定义。

  简单来说,悟界·Brainμ1.0不是给大脑拍片子,而是给脑信号“翻译”。

  “悟界·Brainμ实现的是脑信号的融合,覆盖3个物种:人脑、小鼠、猕猴,11种神经信号模态。原来整个行业的难点就是不同个体之间的脑信号背后到底有没有隐藏共同的密码和潜在的含义?”王仲远很肯定,“智源研究院第一次证明跨个体、跨物种背后的脑信号存在共同的密码,通过大模型、大数据、统一建模确实发现了这样的能力。”

  他在回答北京商报记者提问时,还用了一个颇为东方色彩的说法——“周公解梦”:通过脑信号采集,把一个人的梦境还原并描述出来。“我们已经做了初步实验,非常有意思。”

  落在产业和老百姓身上,智源已跟宣武医院开展合作,进行个性化阿尔茨海默病的早期筛查和诊疗,这些都是希望能够破解人类大脑信号的尝试,包括阿尔茨海默病、抑郁症等。

  从预测下一个Token到预测下一个物理状态,再到破译大脑神经密码,智源用这条极简主线,把AI边界从数字世界推到了真实世界和生命世界。

  智源先一步,替所有人敲了敲门。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500