“理想汽车的辅助驾驶和智能座舱,从‘局部领先’进入‘全面领先’。”在理想汽车于近日推送OTA8.0版本车机系统后,理想汽车董事长李想在社交媒体上如此表示。

图片来源:新浪微博(@李想)
近日,理想汽车OTA8.0版本车机系统正式开启推送,辅助驾驶、智能座舱和智能电动迎来升级。其中,理想汽车自研的新一代辅助驾驶技术架构——VLA(Vision-Language-Action Model,视觉语言行动模型)司机大模型向理想MEGA和理想L系列AD Max车型全量推送。
李想表示,VLA司机大模型是理想汽车的第三代辅助驾驶技术(第一代是规则,第二代是端到端,第三代是VLA),而VLA之所以被命名为司机大模型,是因为它“看得懂道路状况,听得懂人类指挥,记得住车主习惯”,更像一个真人版的私人司机。
“推送的VLA为‘残血版’”
在推送VLA司机大模型的同时,李想也坦言,“因为种种原因,今天全量推送的VLA还是‘残血版’(一个广受好评的功能暂时没推)”。值得一提的是,此前有消息称,理想汽车的VLA远程召唤功能被举报,理想汽车被迫暂停这项功能的推送。
对此,理想汽车方面告诉《每日经济新闻》记者:“自发布VLA辅助驾驶技术架构以来,我们受到了行业及各界的广泛关注和讨论,公司深感责任重大,始终以审慎负责的态度推进各项新功能的上线进程。”
“9月10日开始,VLA司机大模型及相关功能将陆续推送到所有配备AD Max高级辅助驾驶系统的理想L系列和MEGA车型上,各项辅助驾驶功能包括辅助泊车都将得到提升。具体功能我们将依据相关法律法规推送。”理想汽车方面补充道。
在9月11日,李想在社交媒体发文称,现在网络上对9月10日开始推送的OTA8.0版本的理想VLA司机大模型出现“残血版”原因的分析,大多是不实信息。
据理想汽车方面介绍,凭借VLA司机大模型对环境、导航的理解和推理能力,辅助驾驶功能在通过主辅路切换、高架匝道等复杂路口时,选路更加精准。此外,VLA司机大模型具备车速记忆能力,能够记住用户在特定道路的车速偏好,用户只需要通过对话就可以设定车速,未来再次通过该路段时,模型将自动调用记忆并调整为记忆过的车速。
理想汽车方面还表示,VLA泊车则拥有自主寻路、漫游找车位、导航终点靠边停车等功能,实现任意车位到任意车位的辅助驾驶体验。
VLA可被视为端到端的“智能增强版”
除理想汽车外,元戎启行、小鹏汽车等也在VLA领域进行布局。元戎启行于8月26日正式发布自研VLA大模型,推出名为DeepRoute IO 2.0的新平台,确定将在5款车型上使用;9月4日,小鹏汽车宣布,小鹏G7 Ultra开启首次OTA推送,其中就包含融合全场景VLA大模型的导航辅助驾驶功能。多家车企竞相布局,正是希望借这一模型之力,打通端到端方案的瓶颈。
值得一提的是,传统规则与端到端模型都卡在同一道“坎”:一旦遇到训练集里没见过的场景,系统就“发懵”,只能事后打补丁。但现实路况千变万化,没有办法在数据中穷举所有的可能,因此长尾场景一直是自动驾驶最大的挑战。“VLA能够更好地解决上述问题。”清华大学车辆与运载学院助理研究员颜宏伟认为,VLA模型的主要优势在于模型一体化及更强的泛化性,即应对复杂场景的能力。
据悉,VLA相较端到端具有诸多优势,可被视为端到端的“智能增强版”。VLA中的V指的是感知,A是执行,中间的L则是语言模型(Language Model)。V负责感知环境,A负责动作执行,中间的L的作用类似于“中台”,将V的内容,也就是感知的内容转译成A执行的规划和决策。“VLA是多模态大模型驱动的智能体架构,其核心突破在于引入思维链,通过语言模型实现对环境理解与决策推理的可解释性。”颜宏伟说。
元戎启行CEO周光认为:“VLA模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。”
理想汽车自动驾驶研发负责人郎咸朋也表示:“(VLA)真正发挥作用的是背后推理的长思维链。如果没有强大的L,再好的V和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰,论行动速度比不过猎豹,但人之所以能够称霸地球,靠的是强大的认知和理解能力。而这个认知和理解能力就来自于人类特有的语言能力。”
此外,郎咸朋还强调,“L”指代语言学习能力,它并不是简单地用语言做显示的文字推理,而是用语言提供的数据学习隐式的逻辑推理。
“当语言模型与辅助驾驶相遇,一切都变得简单了。尽管VLA模型的表现目前处于持续提升阶段,但VLA模型的下限已超过端到端上限,未来会越来越好。”周光还表示。
VLA与世界模型不冲突
有企业重点布局VLA领域,有企业则不认同该技术路径。比如,华为智能汽车解决方案BU CEO靳玉志就表示:“我们不会走向VLA的路径。这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。”
“华为更看重WA(世界行为模型),也就是World Action,中间省掉Language这个环节……直接通过Vision这样的信息输入控车,而不是把各种各样的信息转成语言,再通过语言大模型来控制车。”靳玉志进一步解释称,华为乾崑自研的WEWA架构包含云端的世界引擎(WE)与车端的世界行为模型(WA)。其中,WE负责海量数据训练与场景生成,WA则实现车端的实时环境推理与拟人化决策。
靳玉志提到的这种“世界模型”源自人类对环境的认知机制,指的是AI系统通过感知数据构建一个对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力。在辅助驾驶中,它不再只是“看见”世界,而是理解世界,预测未来可能发生的情况,并提前做出决策。例如,它不仅能识别前方有一辆自行车,还能预测它是否会突然变道,从而提前减速或避让。除华为外,蔚来、商汤等企业也都在此技术路线上进行布局。
需要注意的是,尽管不同企业对于VLA和世界模型两种技术“各执一词”,但两者并不矛盾,VLA路线也结合了部分与驾驶数据相关的世界模型。例如,李想提出VLA可以拆解为预训练、后训练和强化学习三个层面。强化学习中最重要的一步就是在世界模型里闭环学习,引入舒适度、碰撞、交通规则等规则来打磨、反馈,让VLA比人类开得更好。
此外,世界模型虽然更强调“海量使用云端模拟的数据、来让大模型‘理解’世界而学会驾驶”,但其最底层的世界模型仍需要Transformer技术驱动,而Transformer是VLA的底层骨干网络。华为此前在和浙大、港科大的相关科研成果中,多次提到这一点。
“我了解大部分公司两种技术都用。世界模型和VLA模型不是一个维度的东西,而是交错的。我可以有训练,比如说基于各种复杂输入的事件模型的理念,所以这两个东西不矛盾、不冲突。”小马智行CTO楼天城表示,“我认为想要做百辆无人车以上,世界模型最关键。对其他公司(而言),可能做VLA模型卖车最关键。大家选择不同的路线是因为目标不同。”
对于辅助驾驶底层技术的演进,千里科技董事长印奇认为,智驾行业在3年内将迎来技术收敛。长安汽车智能驾驶高级总工程师则表示,在未来2~3年内,辅助驾驶的技术架构还将迎来1至2轮迭代,到2028年有望收敛至相对稳定的状态。