• 最近访问:
发表于 2025-11-21 22:54:20 股吧网页版
一场需要耐心的长期主义竞赛 具身智能业内激辩三大核心问题
来源:每日经济新闻

  11月20日下午,在智源2025具身开放日上,在多位技术负责人参与的BAAI具身模型会客厅讨论中,关于具身智能未来的共识远少于分歧。

  世界模型是不是核心,具身智能是否会收敛到统一架构,语言是否应该退居次要,动作模型如何设计,数据从哪里来每一个问题都仍在探索之中。

  但《每日经济新闻》记者注意到,另一种更深层的共识正在形成——具身智能的真正竞争不在概念,而在长期投入、真实落地与数据质量。

  未来几十年,当机器人在真实世界中创造价值、积累经验、形成反馈时,或许才能孕育出具身智能的“ChatGPT时刻”。在此之前,这仍是一场需要耐心的长期主义竞赛。

  世界模型是万能钥匙?

  当讨论具身智能的关键路径时,世界模型总是被提及,与世界模型的结合是不是未来具身智能发展的关键?

  这个问题随着世界模型概念的模糊化,而在业内产生分歧。

  北京大学助理教授、银河通用创始人王鹤认为,“世界模型”一词最早来自强化学习领域,指的是根据当前状态与所采取的动作,预测下一步状态变化的动力学模型。然而,在Sora等视频生成模型出现后,世界模型概念逐渐向用视频生成未来倾斜,这让它与具身智能所需的能力发生了偏移。

  王鹤认为,视频生成模型并不能直接作为具身智能的通用解决方案。原因在于,机器人与人的身体差异巨大,即使训练出一个能想象人类如何操作世界的视频模型,也不能保证它对机器人同样有效。即便是当下最像人的人形机器人,其动作空间、灵巧度和执行方式都与人类存在不小差距,看起来像人做事,不等于机器人学会了做事。

  但王鹤同时强调,对未来进行预测是具身智能不可缺少的一环,机器人必须能够根据未来目标倒推当前动作,并对环境变化保持前向与后向的推理能力。因此,具身世界模型是必要的,但它必须根植于真实机器人数据,才能有真正属于机器人的世界模型诞生。

  智源研究院院长王仲远认可世界模型对具身智能未来发展的重要性。他指出,当下业界对世界模型并无统一定义。“如果世界模型仅仅指视频生成(Video Generation),那显然不够。”真正对具身智能有意义的是能够根据过去的时空状态,准确预测“下一时刻状态”,并据此规划动作的模型,这种预测是基于前序的时空状态和现场环境上下文,进而给出的精准决策。

  王仲远举例称,自己回答问题时,要基于前一位嘉宾的发言内容以及现场环境,做出“拿起话筒”这一决策。这才是机器人需要的世界模型,不仅仅是生成几秒钟后的画面,而是要基于对环境的理解,给出一个准确的步骤动作和响应。

  具身智能会否收敛到统一架构?

  在大语言模型时代,Transformer架构(一种基于自注意力机制的神经网络架构)一统天下。具身智能领域是否会收敛到一个统一的架构?是否会出现属于机器人的“具身Transformer”?

  中国科学院大学教授赵东斌给出了一种可能性。他表示,目前Transformer在具身智能领域的应用已经带来了显著的性能提升,例如近期Physical Intelligence发布的π*0.6模型,利用强化学习获取数据链,能够在叠衣服、装盒子等多个任务中实现通用。他认为,随着技术演进,模型架构可能会收敛到单一模型,或者呈现多样化但核心统一的态势。

  此外,大部分嘉宾则对于技术路线的收敛持认可态度。在此基础上,如果具身智能最终会收敛到一个统一架构,那么这个“具身Transformer”的技术路径在哪里?

  招商局集团AI首席科学家张家兴认为,当下大模型的发展逻辑难以直接迁移到具身智能。“过去三年形成的LLM(Large Language Model,大语言模型)与VLM(Vision-Language Model,视觉语言模型)等结构,是以语言为中心,而语言在人类执行动作时并不参与。”他举例称,人类开车时不会在大脑中不断语言化动作指令,因此语言作为中间层的VLA架构(视觉语言动作模型,Vision-Language-Action),其本质与机器人需要的结构不一致。

  张家兴提出,具身智能需要一个完全属于机器人自身的智能结构,而不是从现有VLA体系延展出来的产物。现阶段,他认为真正的具身架构还未出现,业界正在等待一个来自基础大模型领域的突破性创新,类似当年Transformer论文那样。这种创新将有可能弱化语言在模型中的中心地位,让模型以行动和视觉作为驱动核心。

  与张家兴的视角类似,清华大学助理教授、星海图联合创始人赵行认为,视觉是世界上最通用的感知传感器,具身智能的基础模型应当遵循生物进化规律:先有运动和视觉,最后才诞生高级语言智慧。因此,理想的模型顺序应该是Action First(动作优先),然后Vision(视觉),最后Language(语言)。

  赵行强调了一个关键差异:具身模型是一个闭环系统。语言模型是一问一答的开放系统,而具身模型需要“动作—反馈—再次动作”的实时循环,其核心是持续的环境交互。它必须从世界反馈中修正自己的策略,而不是完成一次思考后给出单一答案。

  智元机器人合伙人、首席科学家罗剑岚在此基础上进一步扩展了闭环系统的结构组成。他认为,未来一定会出现闭环一致的“具身Transformer 系统”,但未必是单一模型,而更可能是由视觉(V)、语言(L)、动作(A)等模块共同构成的系统。“VLA 的趋势是对的,但最终形态不会是今天这个样子。”真正的质变可能需要等到具身智能互联网形成,即成千上万台机器人在真实场景中解决具体问题,累积海量数据后,才能催生出真正的统一系统。

  在架构探索之外,动作输出端的不成熟也是当下具身智能无法收敛的重要原因。王鹤指出,目前行业在动作输出上尚未收敛,存在大量基于概率匹配的方法,这类方法虽然适合处理连续变量,但为端到端的深度强化学习埋下了隐患,如何对概率模型应用策略更新是尚未解决的问题。

  王鹤认为,短期内行业需依赖仿真环境和合成数据来探索动作优先的架构,因为目前全球仅有约一千台人形机器人在运行,数据量远不足以支撑新架构的探索。“长期来看,地球上人形机器人的数量必须保持长期高速增长,只有这样,它们的能力才能同步提升,而反过来,能力的增长又会进一步推动数量增长,最终才能孕育出真正强大的模型。”

  自变量创始人、CEO王潜则认为,是否叫Transformer并不重要,Transformer 更像盖楼的钢筋,真正决定楼是什么样子的,是建筑的结构设计。他强调,物理世界充满了语言和图像无法描述的精细摩擦与接触过程,因此必须建立一个独立于虚拟世界的、能够描绘复杂物理过程的基础模型。“可能十年后或者是五年后,可能反而是我们从物理世界中收集到的数据来做出来的多模态模型,反过来吞噬今天的一些基础模型。”

  突破跨域数据瓶颈一定要用真实数据吗?

  无论是否收敛到一个统一模型,对所有具身企业而言,一个共识正在形成:如果具身智能要走到“ChatGPT时刻”,必须先解决数据问题。

  张家兴团队选择“高质量+低成本”的路线,以真实物理世界的探索数据为基础,并通过低成本的人类采集来构建数据金字塔的中间层,试图以最高效的方式夯实数据地基。

  赵行则提出了数据采集的三个维度:真实性、多样性和规模化。他强调必须以真实机器人的素材为起点,且不能局限于实验室,必须深入真实场景。罗剑岚同样坚持真实数据路线,他认为,靠遥控操作采集数据只是起步,未来必须依靠大量部署在真实环境中的机器人,在自主交互中产生广泛数据,形成自我反馈和提升的闭环。

  王仲远主张利用互联网上的海量视频数据作为基座模型的学习来源,这类似于人类儿童通过看视频认识世界。在此基础上,再通过真机采集的数据进行强化学习和反馈,不断精进能力。

  但亦有真实数据之外的探索路径。

  王鹤在讨论中提到,全球规模化运行的人形机器人可能仅在千台级,甚至更少,如此小的机器人人口,远不足以支撑一个动作优先的基础模型。

  王鹤认为,短期内行业必须依赖模拟环境与合成数据,这会比受限于真实机器数量的方式发展得更快。但长期来看,只有当机器人数量进入指数级增长,数据才可能形成正反馈循环,推动模型与能力共同演进。

  加速进化创始人、CEO程昊认为,数据瓶颈的破解是一个螺旋上升的过程。目前极速进化多使用仿真数据以求速度,目标是为了让机器人具备落地能力,从而在真实场景中收集数据。当真实数据遇到瓶颈时,再回退到仿真环境中进行针对性训练。“机器人落地创造价值,价值驱动规模,规模反哺模型。”

  在海量数据需求之外,王潜认为,自变量什么数据都在用,只是侧重点不同。互联网数据用于学习通用常识,仿真数据用于导航和探索,而真实的物理接触数据则是核心壁垒。

  王潜提到,根本在于所有类型的数据都可以被利用,但真正的挑战在于:处理好任何单一类型的数据都相当困难。这背后涉及大量核心的工程问题,也正是团队日常工作的重点所在,同时这些难题也构成了行业的技术壁垒。

  一个清晰的现实浮现出来:具身智能的未来并非由某一种技术突破决定,而是取决于架构创新、真实世界落地、机器人数量增长与高质量动作数据积累是否能同时发生。具身智能的发展路径比语言模型时代更复杂,也更漫长。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500