“具身智能要和智能紧密结合,它能够通过主动的感知、规划和控制,进闭环的控制,改变真实物理世界。根据环境变化,它也能够调整策略。”在近日举行的FAIR plus2026机器人全产业链接会上,腾讯首席科学家张正友如是表示。
具身智能要和智能紧密结合
我们前生活在物理世界里,但我们同时通过微信、QQ等数字平台在虚拟世界或者数字世界生活。前,人类正在进个虚拟世界和真实世界紧密集成的时代,被称为“虚实集成世界”。
张正友指出,在“虚实集成世界”,有四个关键的技术。第是现实虚拟化。是一种通过数字技术将物理世界的实体、场景或交互转化为虚拟环境的技术过程,其核心目标是让用户在虚拟空间中获得与真实世界高度一致的感知和体验。简单来说,它是“把现实搬进虚拟世界”的技术手段,常见于虚拟现实(VR)、增强现实(AR)、混合现实(MR)等领域。
第是虚拟现实化。是将虚拟内容或数字信息叠加、融合到现实世界的技术过程,与现实虚拟化(把现实搬进虚拟)形成互补。其核心是通过设备(如AR眼镜、手机)将虚拟元素(3D模型、数据、动画等)与现实场景结合,让用户在真实环境中“看到”或“交互”虚拟内容,最终实现“现实增强”或“虚实融合”的体验。
第三是全息互联。是下一代互联网的进化形态,它打破了传统互联网“隔着屏幕看世界”的限制,让数字信息像空气一样立体、真实地融入我们的物理世界。
第四是智能执体,简称智能体。是把虚拟世界和真实世界打通,在两个世界中穿梭。现在接触到的很多AI技术,如说ChatGPT、Gemini、Manus、DeepSeek之类的,这些都是在数字世界中的AI。
张正友指出,物理世界的AI跟物理世界紧密结合,包括智能数字和智能机器。机器有各样的形态,可以是形、四足,无人机、汽等类别。在物理世界中,因为要跟环境交互,所以叫具身智能。
所谓具身智能,是一种强调智能必须依赖于物理身体(Body)与真实环境(Environment)交互的人工智能范式。简单来说,它不再满足于像ChatGPT那样只在数字世界里“动动嘴皮子”或“写写代码”,而是要让AI拥有一个物理载体(如机器人),通过视觉、听觉、触觉去感知世界,并通过肢体动作去改变世界。
而ChatGPT、Gemini的系统是离身的系统。如果给ChatGPT发个指令或个问题, 它给你的回答和在家发问结果是样的,离身系统是跟环境是脱节的。
张正友指出,具身智能要和智能紧密结合,它能够通过主动的感知、规划和控制,进闭环的控制,改变真实物理世界。根据环境变化,它也能够调整策略。
提出SLAP范式
张正友在演讲中指出,AI系统的演变已经过了三代。第一代是搜索引擎,第二代是大规模AI系统,就是所谓生成式AI。它能够根据已有的数据模式创造出全新的、原创的内容,比如文本、图像、音乐、视频甚至代码。
第三代是交互式AI。交互式AI系统跟环境是持续交互的,是一个多模态的连续感知系统,也就是前文提到的智能体。它能够自主地完成任务,人类只需要做的是对完成的任务做评估决策,如果做得不好,再反馈给智能体,可以让它重新规划、执行。
张正友表示,智能体具有以下几个特点:一是必须能感知环境,而且构建世界模型;二是自主规划决策;三是自主采取行动;四是以目标驱动的;五是能够适应变化的环境;六是能够从经验中学习,在失败中找到解决的方法,在成功中做得更好;七是能够和其他智能体协作。
张正友表示,智能机器人的现状就是希望把一个对物理世界理解不够深刻的大语言模型,塞到一个没有智能躯体的机器人身上。机器人本体其实不是一个简单的等待软件加载的机器人,而是要主动参与并与环境交互学习。“我们希望的具身智能是能够在与环境的交互中做到真正的智能。”张正友说。
张正友表示,这里的智能主要体现在两方面:一是反应式的自主,一是有意识的自主。前者比如走路绊了一跤,马上能恢复平衡;后者比如如何找到楼梯,从台上下来,这是有意识的自主。
为此,张正友提出SLAP范式。SLAP范式的感知和行动是紧密结合的,是对传统机器人范式的很大改变。这个范式跟人的认知系统非常接近。这个系统经过年的迭代,从SLAP到SLAP3,有三个P: Perception(感知)、Planning(规划)、Perception—Action(感知—行动)这样个较具体的范式。
张正友介绍,2025年,腾讯发布了TAIROS平台。据悉,TAIROS平台是腾讯Robotics X实验室与福田实验室于2025年7月联合发布的国内首个模块化具身智能开放平台,核心定位是为机器人行业提供“即插即用”的大模型、开发工具与数据服务,相当于为各类机器人装上“智慧大脑”,推动其从被动执行指令的机械体进化为主动适应环境的智能生命体。
“TAIROS平台的根本的其实是为机器本体开发商或者是机器应开发商提供不可或缺的智能能,他们就可以不用重复地去开发这些软件。”张正友说。