近期,21世纪卓越董事会(北京)举办“智能重构——Token经济商业闭环与治理锚点”主题闭门研讨会。具脑磐石联合创始人刘晋宇在圆桌对话环节,围绕具身智能大脑如何适配不同形态机器人本体这一核心话题,分享了团队的实践路径与技术思考。

具脑磐石定位为具身智能大脑服务商,其认知世界模型(Cognitive World Model)目前已可适配双足、四足、机械臂等多种形态的机器人本体。
针对多本体适配行业难题,刘晋宇表示,该问题可从两大核心维度拆解:一是驱动结构维度,电驱、绳驱、液压等底层驱动部件的结构差异,会直接影响模型的适配逻辑;二是运动形态维度,双足、四足、轮式底盘的运动模式各不相同。
当前机器人本体厂商数量众多,行业底层协议尚未统一,难以互通。因此,在刘晋宇看来,现阶段一套具身智能大脑无法完全实现全行业的全品类本体适配。
基于这一行业现状,具脑磐石首先确立了精准聚焦的适配策略,在各类机器人形态中分别锚定核心合作伙伴,覆盖四足、轮式、电驱、绳驱等主流形态和构型。团队在模型预训练阶段,会针对同一场景采集不同机器人构型的数据,通过多元化构型覆盖,锤炼模型的跨本体泛化能力,而非无限制拓展合作本体品类、盲目扩大适配边界。
在技术路线上,具脑磐石走出了区别于行业主流的研发路径。目前市面上多数具身智能模型延续大语言模型的训练逻辑,将机器人数据、环境数据与时序信息统一以Token形式输入网络训练。这套技术逻辑本身具备合理性,但在跨本体适配场景中,就需要引入更多类型的本体数据,从而大幅增加模型训练的压力,造成适配成本居高不下。
据介绍,具脑磐石团队依托过去在类脑与AI交叉研究领域的技术积淀与工程实践,重新解构了人类习得技能的核心逻辑,并对深度学习网络进行改造。人类在学习语言或肢体动作时,并不会逐词、逐动作堆砌形成概念,而是天然对整段信息形成抽象认知,留存核心的概念本质。即便更换场景与形式,核心认知依然成立,这也是人类能够举一反三的核心原因。
具体到机器人研发场景,以“喝水”的基础技能训练为例,主流大模型的训练方式本质是数据模仿与轨迹映射,需要枚举海量不同类型的容器、环境样本,才能让模型界定自身的能力边界。而人类无需海量样本,仅需通过少量容器样本和喝水训练,就能掌握“喝水”的核心技能,即便遇到从未见过的容器,也能灵活适配完成动作,背后核心逻辑正是抽象表征学习。
具脑磐石将这一人类学习逻辑引入具身模型训练,创新性地将传统Token输入模式转化为抽象概念输入,让模型在更高的抽象层级完成技能的理解与学习。这一技术思路有效提升了跨本体的数据兼容性,降低了模型训练的数据量级需求,缩减了跨本体的适配成本。
刘晋宇同时强调,技术层面的优化升级,并不意味着可以无限制拓展合作与适配边界。即便模型的数据需求大幅降低,但面对国内已有的百余家人形机器人厂商和数百类机器人本体,逐一完成适配的成本依旧居高不下。
因此,具脑磐石始终采用双线并行的发展策略:一方面深耕商业服务、工业作业等核心场景,稳固四足、轮式等各类机器人形态的核心合作伙伴,维持可控、高效的本体多样性;另一方面持续迭代训练网络与底层训练方法,让模型在有限的本体适配范围内,具备更强、更稳定的兼容与泛化能力。