如今的AI(人工智能),已经学会了对话、创作与分析,下一个进化方向在哪里?答案指向真实的物理世界。从虚拟世界的信息处理者,到能感知、能行动、能与现实环境深度交互的智能体,物理人工智能(物理AI)的兴起,正在开启AI发展的新篇章。
本期“瞰前沿”栏目,让我们一起走进物理AI的世界,探寻这项前沿技术的发展逻辑、现实挑战与广阔前景。
——编者
从读懂图片的“视觉”,到写出文字的“表达”,再到创造视频画面的“想象”,当下,AI正持续“进化”。
学会看、写、生成之后,AI还能做什么?近年来,科技界正在探索推动AI从虚拟走向现实的技术路径。一种新的技术理念——物理AI越来越受关注。
物理AI与生成式AI有何不同,适用哪些场景?如何理解物理AI与具身智能的关系,技术落地又有什么挑战?记者采访了相关业内专家。
升级
让AI进化为与现实世界交互的智能体
什么是物理AI?简单说,我们可以将其理解为走出屏幕、进入现实的AI智能体,它能如人一般感知环境、“动手”操作。
北京通用人工智能研究院—德塔智能联合实验室负责人马晓健认为,物理AI有3个重要特征:能力建立在真实物理交互数据之上、包含对物理世界的理解以及能部署到真实实体上。
这意味着,物理AI知道物体的运动、接触、变形,了解摩擦、重力、空间关系和因果变化等,并能据此预测未来、规划动作,从而在开放环境中完成任务。
从技术演进角度看,物理AI是AI发展到一定阶段的自然方向。
“第一阶段AI通过计算机视觉学会了‘看’,第二阶段AI通过自然语言处理学会了‘写’,当前通过物理AI要学会‘行动’。”百度智能云主任架构师应茹介绍,物理AI的出现,让AI从信息处理工具进化为能够与现实世界交互的智能体。
过去大模型主要是复现人的语言、知识和推理能力,相当于进入人的精神世界;但人的智能并不只体现在大脑中,还体现在与物理世界的互动里。“当AI在语言和多模态理解上取得突破后,下一步必然是把这种智能外化到真实世界,让机器能够感知、行动、试错和完成工作。”马晓健说。
物理AI和生成式AI的差异,主要体现在技术原理和承载任务上。
具体来说,物理AI的重要能力是在物理世界中承载运动控制、环境交互等任务;而生成式AI的重要能力是文、图、视频生成等,支撑内容创作、代码编写、数据分析等任务。
“物理AI和生成式AI属于AI的两种不同分类维度。”马晓健介绍,两者正在深度结合。比如,生成式AI强大的语言理解、场景生成、规划和代码生成能力,可以帮助物理AI更好地理解任务、构建仿真环境等。
挑战
从模型、数据到承载本体,物理AI落地面临多重难题
过去数年,科技界从核心算法到工程本体,多措并举推进物理AI落地。
比如,用于模拟环境动态并预测未来状态的世界模型被称为物理AI的“内部大脑”。学界专家提出世界模型的3项重要能力,即生成性、多模态、交互性,为物理AI搭建起环境理解、因果推断与任务规划的框架。
当前,“视觉—语言—动作”大模型迭代演进,为物理AI筑牢模型底座。
马晓健介绍,目前落地物理AI大致分为3类技术路线。第一类是“预训练—后训练”范式,即先利用互联网视频、第一视角视频、跨机器人操作数据等开展大规模预训练,再依托遥操作数据、强化学习或真机微调完成后训练;第二类是“现实—仿真—现实”范式,即先把真实世界的几何、材质、动力学等信息重建到高仿真环境中,让机器人在“数字孪生”场景中大量试错,再迁移部署至实体设备;第三类是大模型编程路线,依托语言模型,根据任务生成机器人控制程序,串联感知、规划、执行等功能模块。
不同的技术实现路线,各有优劣。
比如,“预训练—后训练”范式路径清晰,但对数据质量、机器人本体一致性和真实交互数据体量要求极高。由于物理AI尚未规模化落地生产生活,难以低成本、高效率采集海量训练数据,这成为制约技术落地的瓶颈之一。
又比如,“现实—仿真—现实”范式的优势在于以仿真算力替代成本高昂、周期漫长的真实数据采集。然而,复杂接触、柔性形变、流体运动、非平整地面等物理过程仍难以高精度实时模拟。
“由于真实世界工况繁杂、多种物理因素相互影响,仿真系统无法完整复刻物理细节,有时仅能作为真实数据缺失时的补充方案。”北京微链道爱科技有限公司总经理张宇说。
“总体看,3条路线大概率不会互相取代,而是在数据、仿真和大模型推理层面逐步融合。”马晓健说。
物理AI与具身智能又是什么关系?简单说,具身智能是物理AI的重要载体,物理AI是落地具身智能的核心技术路径。不过,物理AI落地具身智能的过程中,在硬件本体工程化层面仍存诸多挑战。例如,具身智能执行任务时,需适配复杂动作控制算法。倘若硬件精度不达标,极易影响软硬件深度耦合。业界专家表示,近些年,我国机器人核心零部件国产化水平提升显著,但谐波减速器等关键零部件的加工精度距离国际先进水平仍有提升空间。
前景
依托丰富应用场景优势,物理AI持续迭代
虽然存在阻力,但业内专家普遍看好物理AI产业化落地前景。
一方面,物理AI与大模型发展底层逻辑相通,依托更大规模的数据采集、性能更强的模型、系统化评测与持续迭代,产品能力将稳步提升。另一方面,物理AI不必等到完全研发出通用类机器人才算实现产业化。在垂直细分场景中,只要模型可在同类任务中展现优良泛化能力,便是重要的阶段性成果。
在未来,低空经济、新能源电池、具身智能、高端芯片、航空航天等需要复杂场景仿真与优化的前沿领域,均是物理AI的落地方向。马晓健认为,在一些不适合人类长期作业、传统自动化又难以完全解决的场景,物理AI有望最先落地。
电力巡检便是这样一个场景。在西南偏远地区,过去需要工作人员翻山越岭检查设备,现在北京人形机器人创新中心研制的“天工”机器人可实现户外巡检、变电倒闸操作、配网接地线挂载等复杂任务。
“物理AI并不是为了替代所有自动化。”马晓健说,如果任务高度规整、流程固定,传统工业自动化往往更便宜、更稳定。物理AI真正有优势之处在于执行环境多变、需要实时感知和灵活决策,同时兼具重复性或高危属性的任务。
在产业界,物理AI模型训练效率也在持续提升。
“得益于在AI基础设施领域的常年积淀,我们将‘视觉—语言—动作’大模型训练速度提升70%,世界模型推理时延下降50%。原本以周为单位的训练周期,如今可压缩至小时级。”百度集团执行副总裁、百度智能云事业群总裁沈抖表示。
如何更好推进物理AI落地?
当前物理AI仍处在技术路线尚未收敛的发展阶段。“我们要鼓励差异化、多路线并行探索。”马晓健认为,产业政策与科研扶持不宜扎堆单一技术热点,应引导企业、高校和科研院所围绕模型、控制、仿真、传感器、灵巧手、本体结构等方向开展多元化攻关。此举既能规避押注单一路线的研发风险,也有助于补齐我国在算法、硬件、制造和系统集成领域的全链条产业部分短板。
物理AI真正落地,不靠实验室演示,而是依托真实场景的数据反馈与持续迭代。
业内人士认为,应用场景资源充沛是我国发展物理AI的独特优势。“让技术深入矿井、工厂、仓储、巡检现场等一线场景,物理AI才能更好形成‘场景—数据—模型—产品’良性闭环。”马晓健说。