当人工智能从虚拟算法迈向实体交互,一场关于数据价值的认知革命正在全球科技界掀起。
2025世界人工智能大会(WAIC)上,多家科技企业不约而同地将焦点投向物理AI落地的核心矛盾——传统以量取胜的“大数据”范式,已无法满足智能体与物理世界深度交互的需求。
从工业机器人到家庭服务终端,从自动驾驶到智慧物流,物理AI的规模化应用正面临一道数据鸿沟:如何定义并获取既能精准刻画物理规律、又能支撑跨场景推理的“好数据”?
“好数据”:物理AI落地的核心基石
在世界人工智能大会(WAIC2025)“语料筑基智生时代”语料创新发展论坛上,天娱数科首席数据官吴邦毅直言:“若想让智能体真正走进物理世界,‘好数据’必须同时满足物理真实性、语义可理解性、场景泛化性三大核心标准。”
物理真实性被吴邦毅视为数据的“骨架”。他强调,物理世界的核心是“规则”——物体的几何结构、材质属性、动态交互关系,共同构成了智能体行动的“约束条件”。这意味着,脱离物理真实性的数据,如同没有骨架的躯体,无法支撑智能体在物理世界中做出合理决策。
“3D铰接数据的核心价值,在于精准刻画物体可交互部件的结构属性与运动规律。”吴邦毅以生活中的常见物品为例,门的合页转动轨迹、抽屉的滑动阻尼、旋钮的旋转角度等具有运动特征和交互属性的部件,都能通过3D铰接数据实现细粒度描述与标注。
在他看来,这种对“物理细节”的极致追求,使得数据从传统的二维视觉表达,跃升为可计算、可推理的物理结构模型。
如果说物理真实性是数据的“骨架”,那么语义可理解性则是赋予数据“灵魂”的关键。吴邦毅指出,在物理世界中,智能体的决策需要“跨模态认知”,实现看见物体、理解指令、执行动作三者的深度关联。
这意味着,数据不能仅仅是冰冷的数字和图像,还需要包含能够被智能体理解的语义信息。例如,当智能体接收到“打开门”的指令时,它不仅要能识别出门的物理形态,还要理解“打开”这一指令的语义,以及门的合页结构决定了其打开方式是旋转而非滑动。
场景泛化性则是“好数据”打破“数据孤岛”的关键。吴邦毅认为,当前行业面临的一大难题是,单一场景数据难以支撑智能体应对复杂多变的物理环境。从家庭服务机器人整理书桌,到工业机械臂进行自适应装配,再到智慧物流中AGV小车的动态路径规划,这些不同场景对智能体的要求各异,但都需要数据具备场景泛化性。
他解释道,具有场景泛化性的数据,能够让智能体从有限的训练场景中提炼出通用的规律和知识,从而在全新的场景中快速适应并做出正确决策。反之,如果数据仅局限于特定场景,智能体就会像“井底之蛙”,无法应对场景变化带来的挑战。
“当数据能够精准映射物理世界的‘形’与‘神’——既还原物体的几何与力,又理解其功能与意义,智能体才能真正获得理解世界、改变世界的能力。”吴邦毅说。
具身智能崛起:重构物理世界交互逻辑
生成式AI的爆发式发展,让人们开始探寻人工智能的下一个前沿。在2025世界人工智能大会(WAIC)主论坛上,商汤科技董事长兼CEO徐立给出了他的答案——“具身智能”。他在主旨演讲中提出一个问题:“当书本与互联网知识穷尽时,下一代的智能将从何处获取?第一阶段靠标注,第二阶段靠语言,接下来呢?”
徐立认为,答案可以从人类的学习方式中寻找。“人类自诞生起便通过与现实世界的不断互动探索获得智能,而非始于语言或监督的认知学习。”他强调,“这种与世界的交互是智能增长的重要源泉。”
为了说明主动交互的重要性,徐立引用了1963年的“主动猫与被动猫”实验:两只猫通过转轴相连,一只可以自由活动并与环境互动,另一只只能被动观察相同的视觉画面。实验结果显示,“同样的视觉输入,那只会互动的猫显然成长速度快得多。”
这一实验表明,仅仅接收信息是不够的,主动与环境交互并从中获取反馈,对于智能的形成和提升至关重要。对于具身智能而言,这意味着智能体需要在物理世界中主动探索,通过触摸、移动、操作物体等方式,获取第一手的交互数据,而这些数据正是其智能提升的“养分”。
然而,具身智能在与物理世界交互的过程中,面临着诸多挑战。徐立坦言,机器实体与复杂现实世界的互动难度远超想象。一方面,探索空间的广阔性使得具身智能不得不依赖模拟平台进行训练,但这又会遭遇“模拟到现实(Sim-to-Real)”的差距。
他举例说,在模拟环境中训练出的机器人动作,在现实世界中可能因为重力、摩擦力等物理参数的细微差异而失效。另一方面,即便是通过对现实世界的理解构建统一的世界模型,也存在不少问题。
以模型生成数据为例,这种在自动驾驶领域应用广泛的技术,有时会违反物理规律。徐立指出:“可能出现车辆‘幽灵穿越’十字路口或难以控制的随机事故。”此外,他还提到,“即便最优的视频生成模型,其响应速度也通常较慢。若需实时交互,往往需要等待很久才有生成结果,甚至可能‘抽卡’——生成内容无法预知。”
上述问题均凸显了具身智能在数据获取和处理上的困境:既需要大量与物理世界交互的真实数据,又难以高效、准确地获取和利用这些数据。
徐立认为,具身智能的发展正在重构人工智能与物理世界的交互逻辑。传统的人工智能更多是在数字空间中处理信息,而具身智能则需要在物理空间中实时感知、决策和行动。这就要求数据不仅要能描述物理世界的静态特征,还要能捕捉其动态变化;不仅要具备可理解的语义,还要能支持实时的计算和推理。
综合上述观点来看,物理AI时代的“好数据”标准与具身智能的发展相辅相成。“好数据”为物理AI的落地提供了基础,而具身智能的探索又不断丰富和完善着“好数据”的内涵。