过去一年,随着机器人产业快速升温,一个问题持续引发讨论:机器人究竟应该走VLA路线(是一种将视觉感知、语言理解与物理动作执行统一在单一端到端大模型中的技术范式),还是世界模型路线(即AI理解物理世界、预判未来并自主决策的内置的“虚拟仿真系统”)?
近日,在北京智源大会现场,智平方创始人兼CEO郭彦东对这一行业争论抛出了他的答案:世界模型不是VLA的竞争路线,而是VLA体系的核心组成部分;而在世界模型与VLA融合之后,类脑架构将成为下一代机器人大脑的重要演进方向。
郭彦东认为,从生命演化角度来看,行动能力并不是孤立产生的。生命首先需要感知环境、理解环境,然后才会产生行动。换句话说,世界模型负责理解世界,而VLA负责作用于世界,两者并非对立关系,而是天然统一的整体。
基于这一判断,智平方很早便开始推动世界模型与VLA的融合研究。2025年11月,智平方联合北京大学率先推出融合世界模型的新一代架构Video2Act,首次实现“先预测、后执行”的机器人模型范式。
如果说世界模型与VLA的融合解决了机器人“看懂世界”的问题,那么机器人如何像人一样稳定、高效地行动,则成为新的挑战。
“大家做人形机器人,天天想着如何长得像人,但没有人想如何让脑子更像人。”郭彦东说。
在现有VLA架构中,机器人虽然已经具备较强的理解能力,但面对真实世界的复杂环境,仍然普遍存在响应慢、动作抖动、能耗高等问题。原因在于,大多数机器人仍然依赖一个统一的大模型同时处理感知、推理与控制。
而人类大脑并不是这样工作的。人脑中,皮层负责思考,小脑负责协调运动,脊髓负责本能反射,不同系统在不同时间尺度上协同运作。
借鉴这一机制,智平方构建了“皮层—小脑—脊髓”三级类脑架构NeuroVLA。其中,皮层负责语义理解和任务规划;小脑负责高频运动协调与动态修正;脊髓则负责毫秒级运动执行与安全反射。
这一设计让机器人首次具备类似生物系统的层级智能能力,从架构层面提升机器人在真实物理世界中的稳定性、实时性与能效。实验结果显示,NeuroVLA能够将机器人运动抖动降低75%以上,在碰撞发生后20毫秒内完成反射响应,同时显著降低系统功耗。