• 最近访问:
发表于 2026-07-01 01:14:20 股吧网页版
前苹果AI Platform技术负责人 回国加入具身大模型战场
来源:界面新闻

  具身智能厂商关于未来技术方向的争议,又有了一条新的思路。

  6月末,具身智能公司RoboScience机器科学发布了通用具身大模型Visics,以及其技术架构VLOA(Vision-Language-Object-Action,视觉-语言-物体轨迹-行动)。在发布会现场,RoboScience机器科学展示了模型在多项真实场景的应用,包括最复杂的具身操作任务——家具拼装。

  RoboScience机器科学成立于2024年末,由前苹果AI Platform技术负责人田野与新加坡国立大学助理教授邵林共同创立。公司迄今已完成多轮融资,包括今年5月刚刚结束的10亿元A轮融资,累计融资数十亿元,投资方包括零一创投、京东、招商局创投、商汤国香资本、普华资本、达晨财智等。

  具身智能领域目前主要有两条技术路线。一条是VLA(Vision-Language-Action,视觉-语言-动作),即机器人通过大量人类示教数据来模仿学习动作,优点是能直接理解自然语言指令、训练流程相对成熟,但同时高度依赖与具体硬件绑定的真机,换一个物体往往需要重新训练。

  另一条则是世界模型:先学习并预测环境与物体在物理世界中将如何变化,再据此推导出应执行的动作,相当于让机器人动手前先在大脑中预演后果。这种路线理论上泛化能力更强,但代价是训练成本更大,且存在不小的工程难度。

  而RoboScience机器科学提出的VLOA架构,可理解为在Vision-Language和Action之间加入了一个"O"——Object Trajectory(物体轨迹)。

  田野在接受界面新闻等媒体采访时表示,具身智能的复杂之处在于要同时覆盖三个维度的多样性:做各种不同的任务、操作各种属性不同的物体,以及适配各种构型不同的机器人。如果没有一个统一的格式把这三个维度都囊括进来,模型很难真正通用,类似于大语言模型中的Token(词元)。

  在他看来,物体的动态轨迹就是具身智能领域的“Token”,它是被操作物体在三维空间中的位置和形态变化。不同于VLA天然与硬件绑定,这种路线从训练之初就与硬件解耦,只关注物体本身的变化,不受机器人本体、任务类型和环境的限制,天然具有更强的泛化能力。

  Visics大模型由两个部分组成:一是具身世界模型,输入视觉画面和语言指令后,先进行物体移动的路线推演;二是通用操作模型,把推演结果转换成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹进行连接。RoboScience机器科学的逻辑是,数据决定了模型能力的上限,而这套架构设计,决定的是模型到底能学到什么。

  在具身智能真正大规模落地之前,几乎所有厂商都被同一个问题困扰:训练数据从哪里来。

  RoboScience机器科学执行总裁汪涛算了一笔账:具身智能所需数据量不会低于语言大模型,但全球机器人真机数据积累量,比大语言模型训练数据量少了10的6次方~8次方倍。

  许多具身智能厂商认为,只有依靠海量的真实物理交互数据,才能真正训出可落地的机器人。这也是为什么过去几年,几乎所有厂商都在重金投入真机数据采集,如素材工厂、动作捕捉设备采集等。

  汪涛表示,行业现有真机数据采集方式的每条数据成本大致几块钱,每人每天最多采集几百条,全行业月产能仅在万条级别。尤其是到了后训练阶段,单任务的复杂操作演示需要上万条人工标注数据,人力与时间成本随任务数量线性累加。更重要的是,数据工厂环境采集的数据与真实应用场景存在分布差异,模型难以在实际落地中稳定泛化。

  RoboScience机器科学选择了一条截然不同的路径。

  由于预训练阶段需要的数据必须多样且海量,很难从真实环境中获得, RoboScience机器科学在预训练环节依靠互联网视频和自研仿真引擎RoboMirage生成数据,使其达到优秀水平后再进入真实场景。而真机数据则更多用于具体场景的后训练,提供模型在预训练阶段难以覆盖的高难度失败案例。

  据汪涛测算,这套数据生产流程只与算力挂钩、不依赖人力,单条数据成本可做到几分钱,为传统方案的1/20到1/200,且理论上加GPU就能扩大产能、没有上限。

  目前,RoboScience机器科学积累的视频数据已达数百万小时,仿真操作轨迹数据达十亿到百亿次级别,今年目标是视频数据超千万小时、仿真数据达万亿次级别。

  在发布会现场,RoboScience机器科学演示了机器人自主读取宜家说明书完成家具拼装,过程中即便人为拆除已装配的部件,机器人也能自动恢复并接续完成。此外,机器人也能完成打领带、立硬币、开信封、抓取薯片和蛋壳等任务。据介绍,打领带这一任务就是基于仿真数据训练完成的。

  行业的一种共识是,2026年不会是具身智能的“ChatGPT时刻”,越来越多的厂商不再急于追求全场景泛化,而是聚焦特定场景,先跑通商业模式,再逐步扩展泛化边界。某种程度上,RoboScience机器科学选择了相反的路径,先做相对通用的基座模型,再用场景去验证和反哺。

  田野认为,基座模型迭代与场景落地这两件事并不完全冲突,但场景选择会决定未来的技术路线:选择狭窄场景容易导向小数据、小模型的过拟合方案,而选择泛化要求高的场景则会倒逼基座模型持续迭代。

  在他看来,基座模型是很多场景落地的基础,因此RoboScience机器科学选择从一开始就由场景牵引训练模型,使其具备相对通用的泛化能力。同时,RoboScience机器科学也在自研机器人本体,以便本体与场景深度耦合。

  无论基座模型如何迭代,最终还是要回到商业化落地上来。RoboScience机器科学目前主要有三种商业化路径:以License形式对外授权纯软件能力,已经产生一定收入,客户主要是机器人本体公司和已有机器人的场景方或集成商;二是提供搭载自研大模型的域控制器,服务于工业机械臂或协作臂;三是自有机器人本体,目的是把商业和数据链条彻底闭环。

  汪涛表示,在具体落地场景上,RoboScience机器科学会从物流、商超、零售这类行业切入,它们最能体现公司技术相对传统非标自动化方案的优势,也能较早实现商业化。谈及具身智能企业的盈利时间,他认为需要从模型和硬件两个层面一起降本,规模做大后才更有机会实现大规模盈利。

  RoboScience机器科学留给自己的下一个考题,是8月即将发布的自研机器人本体。届时,VLOA架构能否在真实场景中跑出预期中的泛化能力,将是检验这套技术路线成色的第一道关口。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500