“从第一性原理来考虑,(机器人)操作认知的空间应该怎么拆解,怎么样在千变万化的不同环境中抽取操作世界的基本模型,同时能像人一样下意识地改造世界并执行,需要考虑到两点:第一,泛化性,见过、未见过的物体能够被理解;第二,鲁棒性(Robustness,指系统抵抗故障和干扰的能力),保证任务能够被鲁棒地执行。”在8月11日的世界机器人大会期间,穹彻智能联合创始人、上海交通大学人工智能学院副院长卢策吾在世界机器人大会的主论坛演讲称。
卢策吾会后向21世纪经济报道记者表示,目前限制机器人“大脑”成熟的主要问题并非芯片算力和硬件,而是看具身模型架构与数据闭环的迭代。他称,尽管本次机器人大会上现场展示的机器人应用各有优劣,甚至还出现“翻车”情况,但行业有信心,机器人的智能化正在大幅提升,关键在于用什么样的数据、多大数据规模以及采用哪类大脑结构。
卢策吾博士期间在香港中文大学师从计算机视觉领域专家、思谋科技创始人贾佳亚。长期以来,卢策吾致力于计算机视觉与机器人研究,并取得多项研究成果,包括开源人体姿态估计系统Alphapose、GraspNet(高性能机器人抓取系统)等开源人工智能框架和数据集。
应对具身智能的市场热潮,卢策吾跨界学术与产业,两栖发展。卢策吾联合创立的穹彻智能以泛化性极强的机械臂控制能力著称,在柔性物体操作(如叠衣服)和食材处理(如削黄瓜)等场景上,展示出技术通用性和鲁棒性。今年7月,卢策吾团队提出“数字基因”框架,试图把具身智能从语言层面的理解推进到能执行的说明书级理解,即让机器人不只听懂语言,还能按说明书稳定、通用地动手做事。
4月9日,穹彻智能完成数亿元Pre-A++轮融资,吸引了盛宇投资、清科创投、嘉御资本、云启资本、上海科创集团等多家知名投资机构加入。老股东Prosperity7、红杉中国、小苗朗程、璞跃中国等持续追投。
用“数字基因”解决泛化问题
卢策吾指出,对于时下机器人行业热门的视觉语言动作模型(VLA)方法——“逻辑上是这么回事”——Vision(视觉)理解世界,Language(语言)与人类沟通,Action(动作)改变世界,然而,具身智能面对的物理世界复杂得多,要做到通用和泛化性,就要压缩不确定性,逐步加入各种技术和限制,在兼容框架中增加更多额外信息。
卢策吾认为,找到更聪明的方式理解世界,并融合到VLA里,才可能真正推动通用智能拐点出现,机器人难以有效理解数据,因此,亟需开发说明书级别的指导体系,将物体解析转化为程序化语言(而非自然语言),但这一关键能力目前仍然缺失。为此,卢策吾团队提出了“数字基因”。
卢策吾解释,“数字基因”受生物启发,万物千变,但基因表达是统一的。对应到具身机器人的任务中,可以将杯子、把手、旋钮、抽屉等物品类,用可解析、可计算的程序化模板统一表达为结构(由哪些部件和约束组成)、功能(能完成什么)、可供性(能被抓、被推、被旋)、操作属性(用多大力、朝哪个方向、按什么顺序),即一份“万能说明书”。同一类的不同实例,只是参数不同。当机器人看到一个未见过的门把手,按这份万能说明书也能准确行动。
“一个杯子,主要就这么几个功能、结构、操作方法,总结出来后,我们提出一套数字基因的协议去编写,只要调整参数,对于整个(杯子)大类所有的可能性就会被解析了一遍,”卢策吾说,人类常见的各类物体仅有一千多类,理论上是可以解析完全的。
至于该方法的应用潜力,卢策吾表示,制造商能上传其产品的数字基因,由数字基因平台训练并部署在机器人上后,遇到该产品可以自动解析其产品说明书,实现万物操作的万能说明书。相较数字孪生,手工生成一个机器人操作数据资产每个需要约150元/2小时,基于“数字基因”方法的成本为0.006元/秒(单GPU),成本降低1万倍,更重要的是数据资产可规模化产生。
落地食品加工业
在今年的世界人工智能大会上,穹彻智能向外界展出的由机器人担任店员的冰淇淋小店受到关注,在小店中,双臂自适应机器人平台能够自主而灵活地完成开关冰柜、手工舀挖冰淇淋并放置、清洗挖勺等连续复杂任务。
其中,由机器人挖冰淇淋的动作完成起来颇具技术难度。机器人在挖冰淇淋球时,基于视觉与深度感知,实时判断冰淇淋池的厚度、颜色等状态,自主规划取料位置与路径,减少原料浪费。机器人还可以在挖的过程中跟随着冰淇淋池表面起伏,以合适的力度下压克服阻力,让冰淇淋在勺中滚动,从而形成较好的冰淇淋球面效果。
去年,穹彻智能向外界展示的还是机器人刮胡子、削黄瓜等案例,随着场景愈加复杂,机器人与被操作物体接触距离、持续时间更长。卢策吾向记者解释,刮胡子、削黄瓜为短程、秒级接触,现在做到了长程、分钟级别,当机器人挖冰淇淋球时,意味着每毫秒都要对结果负责,必须在模型上全局优化,难度呈几何上升。
穹彻智能自研端到端力位混合机器人行为模型,可实现抓取、柔性物体折叠、刮削、打开等技能,实现高效低成本的解决方案,去年在食品加工行业的食材整形、精准配重等场景实现落地,数量达百套规模。
融资热背后的冷现实
今年,宇树登上春晚以及全球首个人形机器人马拉松赛事成功举办,引来全民对机器人行业的关注。产业层面,今年也是具身智能开始落地尝试的一年,行业融资整体火热,大小企业纷纷融资,包括宇树、银河通用、加速进化、智元等。
对于具身智能公司来说,进一步向外界展示商业化潜力,已成为重要事项。松延动力CFO韩深任表示,四年来投资人从原型演示转向对真实场景与实用形态的考察,这一变化正在倒逼厂商更早证明商业化路径。以此来看,资本市场对于机器人的看法已经发生了巨大变化。
具身智能属于人才与资金双密集行业,即便融资情绪升温,中国初创公司的单体融资规模仍偏小,与同期美国同行存在显著差距。据斯坦福大学《2025年AI指数报告》,2024年美国私人AI投资达1091亿美元,中国为93亿美元,差距近12倍。
中美具身智能技术实力相当,虽然中国还有供应链优势,但融资规模、估值差距过大。卢策吾透露,按公司层面测算,国内单个具身智能创业公司的融资额约为美国同行的七分之一,与大模型、自动驾驶两大赛道相比,国内具身智能融资仍偏弱。
在资金约束下,将非常考验具身智能创业公司技术路线与验证策略,“如果(公司)资金很多,那么可以铺开,在几百条技术路线上并行尝试,如果资金少就要谨慎选择了,这非常考验每个公司领导者的科学素养,因为他们需要做出路线决定。虽然资金少,但是可以通过科学见解和技术路线判断进行聚焦,这并非靠砸钱试错,而是依靠智慧和判断力,这将考验每家公司的技术决策者是否具备顶尖的科学素养和前瞻判断。”卢策吾说。