人形机器人“背后有人”吗?至少在最近十年的人形机器人发展历程中,这一疑问始终被公众广泛讨论。
前不久,小鹏汽车的人形机器人IRON以近乎荒诞的方式“破圈”,被怀疑“里面藏人”,小鹏方面不得不对IRON先“扒皮”、后“剪腿”以证清白。
“背后有真人”已被证伪,但在大众认知中,人形机器人又确实“背后有人”——在展会、运动会甚至商场中,人们常常看到人形机器人在跑步、跳舞、翻跟头时,往往会“标配”一名手拿遥控器的人类工程师。与此同时,《中国经营报》记者近日在北京探访参观具身智能训练场时也注意到,由真人来遥控或遥操作,是机器人训练学习、收集真实数据的常见方式。
如何科学地看待人形机器人“背后有人”的现象?机器人实现自主化还面临哪些攻关难点?针对这些关注度较高的问题,本报记者采访了相关企业、研究机构的专家,以期提供一些参考。
“背后有人”真相
自今年以来,人形机器人在运动能力上进步明显,相较以往只能展示简单的肢体动作,现在能够进行长距离跑步、翻跟头、爬山、搏击、踢足球、拖动卡车等较复杂的运动展示。不少品牌企业在展示人形机器人产品能力时,会作出“全自主”“非遥控”等说明。简而言之,人形机器人的自主化能力正在提升,最典型的代表是在人形机器人半程马拉松比赛中,分别斩获冠军、亚军的“选手”——天工Ultra、松延动力N2均是非人工遥控、自主化完赛的,由此验证了机器人的自主化能力。
需要说明的是,从验证到稳定成熟还需要一段距离,因此当下人形机器人仍处在“背后有人”的阶段,一类是遥控,指通过遥控器或者在电脑后台发布指令,一类则是复杂度更高的“遥操作”。
星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇解释道,遥控不等于遥操作,简单来说,前者是更为基础的“指令传递”,设备仅执行预设动作,而遥操作是由人通过更复杂的装置——如VR、动作捕捉传感器设备、力反馈控制器等,来实时控制机器人完成连续的、高度精细动作,被“遥操作”控制的机器人或灵巧手就成为人“身体的延伸”。当前业内有共识,认为模型与算法决定了机器人的能力上限,“遥操作”是进行机器人数据采集与模型训练的重要工具。
在陈建宇看来,技术人员通过“遥操作”的方式控制机器人,实质是“手把手”教导机器人,这些高质量数据将被用于模型迭代,最终部署至机器人,从而实现从“人类示教”到“自主执行”的闭环。
擎朗智能战略技术官刘斐也向记者表示,遥操作在现阶段是常规的训练方式,通过遥操作采集的数据具有较高的真实度与任务相关性。以擎朗智能自身为例,一方面通过在真实商业环境中部署机器人在岗位积累真实场景数据,另一方面通过遥操作及其他方式进行高效训练,持续拓展机器人的能力边界,以快速适配新场景,不断复制“岗位化”工作模式流程,从而实现更广泛的落地场景应用。
不难理解,“遥操作”是将人的技巧经验与判断传递给机器、用于训练具身智能的重要数据采集方式。而相比遥操作来说,通过遥控器来操作、控制机器人则更容易理解,且广为大众所见。
一位从事机器人租赁及线下活动营销业务的人士告诉记者,人形机器人在线下活动中很受欢迎,要向观众展示机器人的功能,有时也要让观众参与互动中,所以常使用遥控器来控制机器人。“坦白讲,主要是因为遥控器简单,很容易上手。现在有些机器人也能不用遥控,但是整体来说,硬件性能不够稳定,再加上像展览会、户外场地的网络环境也存在不确定性。”该人士说。
除此之外,参加过2025世界人形机器人运动会,来自北京海百川科技公司、灵翌科技的两位工程师也分别向记者解释,机器人自主跑步是能够实现的,但在竞技比赛中大多使用的仍是遥控操作,这样机器人的发挥会更稳定,如果全AI自主,运动速度和反应速度都会变慢,从而影响比赛成绩。
自主化攻关挑战
在公众认知中,如果人形机器人需要使用遥控器,那它似乎就很难摆脱“大玩具”的标签属性。
机器人为什么还难以脱离遥控器?智源研究院院长王仲远在接受本报记者采访时指出,“本质上我们看到的所有遥控来展示的能力,都可以认为是一个专用模型,因此它的每一个动作是专门采集数据、专门进行训练的,形成一些预设动作”,遥控操作的好处是至少能够完成一个高级指令。
“为什么大量使用遥控器操作,这与我们拥有的数据量有关。”王仲远认为,机器人时代可能仍会遵循此前深度学习1.0时代视觉识别的发展路径,即先用小的、专用的具身模型进行产品化落地,使机器人产业先跑起来,在活下来的同时把某个场景某个任务做到99%以上的准确度,达到一个能够长时间运行、不至于发热损坏的稳定状态,在这个过程中不断产生数据,提升泛化通用能力,从而形成闭环。
“如果有一天,机器人‘公民’数量越来越多,他们产生了海量的机器人专有数据,而且这些数据能够公开,能够被广泛训练和使用,届时才有可能产生真正意义上的具身智能大模型。在最终理想状态下,具身智能机器人能够对话交流,看到真实的世界,自主做决策和执行,但是这显然还有很长的路要走。”王仲远如是说道。
值得一提的是,在记者采访的机器人企业中,部分企业持乐观的预期看法,认为明年行业或将集体“抛弃”遥控器。其中,旗下拥有仿生机器人、IP机器人等产品线的华夏数字(深圳)科技有限公司公共关系与政府事务部总经理吴为表示,今年下半年以来,商业化订单开始规模交付,该公司的主要客户集中于银行、教育等行业。“从需求端来看,商业化运用的机器人一定没有遥控器,客户不可能买台机器人,还配一个人来遥控它,所以这会倒逼机器人企业脱离对遥控器的依赖。”除了商业场景中的应用,事实上,在国内外市场,多家瞄准通用型人形机器人的企业已在产品中打出了“全自主”“非遥控”的旗号,不过自主化的程度、稳定性尚有待市场的检验。
本报记者了解到,在关于具身智能的通用泛化能力如何提升探索中,当前行业主要有三条技术路线,分别是端到端VLA(视觉-语言-动作)模型、“大脑+小脑”分层模型、世界模型,当然三条路线并不是非此即彼,甚至不少科技企业、学术研究机构均有所布局。业界普遍认为,具身智能领域尚未出现像大语言模型的ChatGPT时刻,相关的技术探索还未收敛,这就意味着具身智能真正的自主化、智能化尚有待成熟,机器人真正告别“背后有人”显然还有一段路要走。