星源智专注具身智能大脑研发,成立仅10个月,累计融资突破10亿元人民币,客户覆盖70%以上头部具身企业,并成为英伟达JetsonThor全球最大出货商。围绕行业落地节奏、技术路线选择与分工格局,两位核心成员在接受记者采访时回应了当前具身智能领域最受关注的几个问题。
复杂场景落地为时尚早
“一些具身公司认为现在不是具身落地的时间点,要继续放到两年后或者五年后考虑落地的场景,我们认为随着模型的发展和具身能力的发展,应该在一些结构化场景尝试让具身落地。”谈及具身智能落地进展时,星源智CEO刘东表示。
他将能落地的具身场景分为两个层次。第一类是纯移动任务,包括巡检、导览、导购等,这些场景技术门槛相对较低,已在实际场景中应用。第二类是抓放操作,在仓库拣选、工厂上下料等场景中,约90%的品类问题已得到解决,但仍有部分品类的抓取成功率有待提升。至于酒店清洁、家庭服务等复杂操作场景,他坦言“短期内落地还是比较困难的”。
星源智的定位是不做具身智能本体,只做“卖铲人”。“有些公司擅长做本体,有些擅长做模型。”刘东解释道,类似自动驾驶领域,头部新势力大多选择自研,更多车厂则与华为、Momenta等方案商合作。眼下,星源智已将具身大脑应用于物流叉车卸货、电力设施巡检等场景,替代人工执行危险或重复性劳动。
“目前国内具身智能企业接近两百家,多数难以支撑全栈研发投入。星源智已为其中70%以上的头部客户提供大脑模型、端侧算力平台及基础设施。”刘东进一步介绍道。
对于未来格局,刘东预判,“大脑”类公司将进一步分化为不同垂直领域的专业厂商。“物流、家庭、工业等场景各有数据壁垒,很难有单一公司通吃所有领域。正如Anthropic、OpenAI逐渐向编程场景收敛一样,具身智能领域的每个细分行业都将形成自身独特的数据特征和竞争壁垒。”
世界模型与VLA互补而非替代
在具身智能领域,VLA(视觉-语言-动作)模型是当前主流技术路线之一。针对世界模型与VLA的关系,孙振国在采访中阐述了团队的理解。他不认为VLA路线会被取代,而是世界模型正从训练辅助转向决策核心,两者共存、各有分工。
在数据利用效率方面,VLA本质上是模仿学习,依赖高质量的成功轨迹数据,一名数据采集人员工作8小时最多可产出3小时的高质量数据。相比之下,世界模型能够利用失败的轨迹,因其学习的是“当前状态—动作—未来状态”之间的动态关系,数据利用效率可提升至6至7小时。孙振国表示,“这也是为什么大家现在更倾向于做世界模型的一个核心原因。”
在输入条件的选择上,当前视频生成模型和VLA多以语言为条件输入,但孙振国认为语言描述存在不一致性,“这种不一致性会带来模型层面的困惑,进而导致决策执行的不确定性。”在他看来,动作输入具有唯一性和可控性,由此生成的未来状态也相应具有唯一解。
在自进化潜力方面,孙振国认为世界模型具有天然优势:执行动作后获取真实反馈,与预测结果对比,有偏差即可修正,“理论上可以让预测变得越来越准”。VLA路线的自进化通常依赖强化学习后训练或人类反馈对齐。两种路线各有适用场景,世界模型为自进化提供了一种新的可能。
总体而言,世界模型与VLA并非相互取代,而是各有侧重。孙振国判断,“大家今年更愿意相信世界模型会比VLA路线上限更高,也更容易做一些落地。”行业对世界模型的关注度正在提升,其在数据效率、端侧部署和自进化等方面的潜力,为具身智能提供了新的技术选项。