
国内首个强化学习大模型上车。
作者|王彬
封面|别克至境 L7
“谁说合资品牌做不好智驾?”
9 月 15 日,在别克至境 L7 的发布会上,上汽通用副总经理薛海涛斩钉截铁地说。他们专门在发布会场地中搭建了一个拥有 7 个停车位的泊车演示区,在发布会中现场实测至境 L7 的智能泊车辅助功能。在中国汽车发布会中的历史中,这可能也尚属首次。
别克选择的实测项目难点颇高,包括极窄垂直泊入、断头路垂直泊入以及断头路逆向限位器水平泊入等,涵盖用户真实用车中的多个困难场景。三项测试项目中,至境 L7 均圆满完成。
别克至境 L7 发布会
“从今天起,关于‘合资无智驾’的论调,终于可以画上句号了。”上汽通用副总经理薛海涛在发布会上说,“我们的表现,不仅在合资阵营中稳居绝对第一,即便与任何顶尖选手相比也毫不逊色。”
别克至境 L7 的底气来自于车上首发搭载的 Momenta R6 强化学习飞轮大模型,这是国内首个在端到端基础上真正实现量产落地的强化学习大模型。
你或许会感到疑惑,强化学习能为智能驾驶带来什么不同?它和多数车企们强调的“端到端”又有什么区别?
在业界看来,端到端的上车虽然推动了智能辅助驾驶能力的快速提升,但它大多还是基于模仿学习,改进空间有限。许多研究者认为,要跨越从辅助驾驶到真正无人驾驶的门槛,仅靠模仿学习可能不够,强化学习或许是必不可少的一步。
然而,受限于数据、安全和算法等现实因素,它始终未能在自动驾驶中广泛应用。业内运用强化学习更为知名的案例是特斯拉 FSD。即便马斯克已经不再对外披露 FSD 的技术路线,但外界普遍认为特斯拉正运用强化学习训练 FSD。
现在,基于强化学习的 Momenta R6 飞轮大模型上车,意味着中国公司终于也正式加入了这场强化学习竞赛。
强化学习为什么这么重要?
要理解强化学习之于自动驾驶未来的重要性,我们需要先厘清强化学习的概念。
从技术角度来说,强化学习的核心就是试错,让智能体通过与环境交互,不断尝试动作、获得奖惩信号来改进策略。你可以回想小时候学习骑自行车的经历,骑车、摔倒、再骑车……最终你学会了如何掌握平衡。这其实就是一个最简单的强化学习过程。

强化学习简要决策示意图
强化学习虽然早在上世纪八十年代就已成型,但它第一次真正走入大众视野,还是 2016 年 AlphaGo 战胜人类棋手李世石的那一刻。 在 AlphaGo 的训练中,DeepMind 就运用了强化学习技术。
后来 AlphaGo 的升级版本 AlphaGo Zero 甚至完全抛弃了人类历史棋谱,仅使用强化学习从零训练三天、经过大概 490 万盘的自我对弈之后,就能以 100:0 的全胜战绩击败此前最强的 AlphaGo 版本。
换句话说,强化学习过去的经验往往证明了这样一个道理,如果目标是让 AI 的能力显著超越人类,那么仅仅依赖对人类经验的模仿远远不够,必须通过强化学习来实现自我博弈和持续成长。
自动驾驶领域同样如此。对于自动驾驶这样一门关乎现实行车安全的学科来说,它对于机器驾驶安全性的要求远超人驾。Momenta 创始人及 CEO 曹旭东此前提出过一个概念,要实现可规模化的无人驾驶,自动驾驶至少要做到 10 倍领先于人类驾驶的安全水平,才有可能规模化落地应用。而要实现 10 万台 Robotaxi 的大规模商用,可能需要 100-1000 倍人类驾驶的安全水平才能达到足够的安全。
人类对于自动驾驶安全性的容忍程度远低于人驾。人类驾驶员可能 1000 台车中一年就会有一次重大安全事故,但只要有一起重大安全或死亡事故,往往就能摧毁一家 Robotaxi 公司。只有自动驾驶达到远超于人驾的水平,才有可能实现落地。
2023 年,谷歌旗下的 Robotaxi 公司 Waymo 对外发布了一篇技术论文,称“模仿远远不够”(Imitation Is Not Enough)。Waymo 表示,仅基于模仿学习的策略往往无法充分解决安全和可靠性问题。他们尝试将模仿学习与强化学习结合,仅仅只通过 10 万英里的城市驾驶数据的训练,就可极大提高最难场景下的安全可靠性,失败率降低超过 38%。

Waymo 官网发布的技术论文
简而言之,自动驾驶如果想要真正实现满足落地 Robotaxi 场景的安全要求,必须要通过强化学习才能实现。
行业人士也对外表达过不少类似观点。小马智行创始人楼天城说,模仿学习的上限甚至远达不到人类。模仿学习致命问题在于它不是闭环训练,人类驾驶员用了许多车没有掌握的信息才做出驾驶决策,如果车没有掌握这些信息,越模仿差得越远。
Momenta 创始人曹旭东说,过去一段式端到端模型基于模仿学习,容易出现的情况就是“知其然不知其所以然”,在一些安全的长尾场景就没有很好的反应或者泛化能力。
特斯拉 FSD 之所以能展现出极强的适应能力,即便未在国内实地训练也能达成不错效果,部分原因或许也与强化学习的应用有关。
即便马斯克不再对外透露 FSD 的技术路线,但我们仍然可以从特斯拉的招聘启事中一窥端倪。特斯拉最新的招聘启事中明确指出,应聘者需要利用生成建模、模仿学习及强化学习等技术来提升驾驶模型的规划和推理能力。

特斯拉官网招聘页面
同时,特斯拉也在机器人项目中 Optimus 的训练中应用强化学习。今年 5 月,Optimus 公布两段机器人舞蹈视频,展现出极强的平衡协调性。特斯拉 Optimus 副总裁米兰·科瓦奇(Milan Kovac)透露,Optimus 的舞蹈技能“完全通过模拟环境中的强化学习训练”得来,无需人类演示或物理试错。

米兰·科瓦奇转发马斯克的帖文
某种程度上,强化学习在自动驾驶与机器人中的应用是相通的。此前曹旭东接受媒体采访时曾表示,自动驾驶和通用机器人的能力交集或大于 80%。
强化学习上车,智驾更安全
强化学习这么重要,为什么过去一直没有在自动驾驶领域大规模普及?
有许多现实问题的制约。比如最简单的安全问题,强化学习需要通过不断试错来优化策略,而在真实道路上试错成本极高,任何错误都有可能引发交通事故。数据问题也很突出,行业早期大量高质量、覆盖长尾场景的数据难以获取。算力和模型的限制,也让复杂策略难以在可接受时间内完成,更不用说奖励函数的设计问题。种种难题的制约,导致强化学习长期停留在研究阶段,难以直接落地。
尤其是对于当前密集推动智能驾驶上车的车企们来说。在 L2 阶段,智能驾驶的能用比好用更重要,落地是第一步,因而此前行业先后从规则算法到端到端,目的之一就是先让汽车用上智能辅助驾驶。
而此前行业中一早就瞄准完全无人驾驶的 Robotaxi 创业公司们,则不得不面临难以规模化落地的困境。事实上早期大多数 Robotaxi 公司们只是小范围内运营,依赖局部区域的高精地图以及车身上的大面积传感器,但往往也导致无法收集到足够多的长尾数据。
Momenta 是其中的另类。这家公司虽然同样瞄准最终的完全无人驾驶,但他们选择“两条腿”走路,一条腿是推动 L2 级别智能辅助驾驶的量产,来获取更多高质量的长尾数据;另一条腿是发力更前沿的 Robotaxi 自动驾驶,探索技术突破的同时与 L2 落地形成反哺。

Momenta 数据飞轮
曹旭东认为,如果要实现可规模化的 L4,起码要积累 1000 亿公里的行车数据,这相当于 1000 万台乘用车跑一年。而仅靠自有车队难以实现。他们将这一战略归纳为“一个飞轮两条腿”,“一个飞轮”的核心是数据驱动,两条腿则是 L2 量产与 Robotaxi 共同发力,形成一个高效的数据协同。
数据驱动的弊端之一是 Momenta 早期不够性感,但时间会证明一切。从 2022 年实现首款量产车型落地开始,Momenta 的飞轮越转越快,定点量产车型不断增多,技术落地也越来越快。

Momenta 合作伙伴
尤其最近 Momenta R6 飞轮大模型的推出,这是国内首个在端到端基础上真正实现量产落地的强化学习大模型。在此之前,行业中虽然也有不少公司意识到了强化学习的重要性,但更多使用模仿学习与强化学习结合的路线。先通过模仿学习来训练出来一个端到端基础模型,再用强化学习实现长尾复杂场景的攻坚。
Momenta 很早就开始探索强化学习的应用。去年他们就已经成功验证了强化学习的算法、原型,今年开始推动 R6 飞轮大模型的真正量产落地。

Momenta R6 飞轮大模型
基于 30 亿+公里实战数据训练的 Momenta R6 飞轮大模型可以带来诸多智能驾驶体验的提升,尤其在安全、拟人、高效等方面。比如在面对加塞、鬼探头、盲区遮挡的复杂路况能够精准预判,而在强化学习加持下,它可以比模仿学习表现得更像人驾,在复杂场景下更自然流畅。
率先搭载 Momenta R6 飞轮大模型的至境 L7,可以实现“无断点”的城市 NOA,并在业内首批发布“多步变一步,不停车一键泊入”等在内的全场景辅助驾驶功能。

别克至境 L7 发布会
更重要的是,强化学习的介入让至境 L7 的智能辅助驾驶安全性大大提升。至境 L7 的发布会前,别克专门复现了此前懂车帝智驾横评测试中最困难的两道考题,分别是高速事故场景模拟“消失的前车”、城市事故场景模拟“盲区藏辆左转车”。两项挑战中,至境 L7 均挑战通过,主动制动避险。
“相比于模仿型大模型,它除了使用人类的好数据之外,还会使用一些极限场景的挑战数据或者坏数据。”曹旭东介绍,这样模型学习的就不是人的驾驶,因为这些极限场景下人的处理本身都不太好,但通过强化学习可以探索出更安全、更安心和更丝滑的驾驶策略。
与特斯拉 FSD 站在同一维度竞争
数据飞轮是 Momenta 可以率先实现强化学习落地的重要原因之一。强化学习的基础之一就是积累起足够多的覆盖长尾、极限场景的高质量数据,此后再通过仿真场景训练和实车验证测试。而 Momenta 正是目前国内城市 NOA 第三方智驾市场市占率最高的公司之一。
Momenta 是如此强调数据的重要性,以至于不少行业人士戏称他们是一家数据公司。《中国企业家》此前在报道中引述一位投资人的说法,“他们在搭建数据飞轮上非常专注,甚至有点像一个数据公司。”
行业中另一个专注于积累数据积累与强化学习训练的公司是特斯拉。马斯克在不同场合下都多次表达过数据的重要性,认为他们最大的优势之一就是庞大的量产车辆和每天产生的行驶数据。
事实上,特斯拉 FSD 本身就是一个闭环的高效数据模型。每一辆行驶在路面上的特斯拉汽车都在源源不断地为特斯拉产生数据,这些数据又不断反馈到特斯拉的云端超算中心。
为了加速数据收集和验证,特斯拉甚至在车端部署了一个名为影子模式(Shadow Mode)的机制,当车辆在真实路面上行驶时,系统会进行模拟决策来与人驾进行对比和观察,评估和改进算法。

特斯拉影子模式
数据驱动的路径让 FSD 快速成长。自 2023 年 FSD V12 版本推出以来,特斯拉在自动驾驶道路上一路狂飙。今年 6 月,特斯拉 Robotaxi 服务首次在美国奥斯汀落地运营,初期仅在小范围内运营。仅仅 2 个月后,特斯拉 Robotaxi 的覆盖范围就增加至 173 平方英里,车队运营规模扩大 50%。
马斯克计划,Robotaxi 车队到今年底要覆盖美国一半人口,“服务区域和车队数量都将呈现指数级增长。”在他看来,随着 Robotaxi 进一步扩张,每辆车每天积累的行驶数据量将是普通车辆的十倍,这些数据或将反哺 FSD 的训练,帮助现有车型持续提升自动驾驶性能。
特斯拉的这套逻辑和 Momenta 的“一个飞轮两条腿”几乎没有什么不同。同样都是通过大面积的量产车辆积累海量数据,同样也都是通过 Robotaxi 来反哺智能驾驶训练。曹旭东此前对外解释过 Momenta 的两条腿战略,“先把全无人系统先放到测试车上跑,相对成熟了,再往量产推;然后量产的数据回来了,又能用于发展下一代全无人产品,两条腿协同。”
今年 5 月,Momenta 与享道出行达成战略合作,双方将共同打造基于前装量产的 Robotaxi 车队,并率先于上海启动试运营。同一时期,Momenta 还与 Uber 达成战略合作,首批合作商业化落地将于 2026 年初在欧洲启动。9 月 8 日,双方共同宣布德国慕尼黑将作为联合 Robotaxi 项目的首发城市。

Momenta CEO 曹旭东与 Uber CFO Prashanth Mahendra-Rajah
和市面上多数基于量产车型改造的 Robotaxi 服务不同,Momenta 落地运营的 Robotaxi 车队完全基于量产车型打造。比如与享道出行的合作中,Robotaxi 车队就将复用现有上汽智己 LS6 的硬件,无需额外后装改造。这和特斯拉使用量产 Model Y 落地 Robotaxi 类似,马斯克同样执着于使用量产车型实现 Robotaxi 服务。
Momenta 在慕尼黑开启智能辅助驾驶
在曹旭东看来,强化学习大模型的上车将会推动智能驾驶迭代速度越来越快。今年以来,已经有不少行业人士开始强调强化学习的重要性,无论是 Robotaxi 创业公司还是新能源车企。即便各家的技术路线有所不同,有的强调世界模型,有的强调 VLA,都无一例外都提出强化学习的重要性。
今年初,DeepSeek-R1 通过纯强化学习的训练机制也让不少自动驾驶行业人士受到启发。佐思汽研发布的调研报告指出,强化学习领域的技术创新成果,同样能够迁移应用至端到端智能驾驶领域。基于强化学习的大模型技术路线,为端到端智能驾驶算法的研发提供了全新思路,有望突破传统模仿学习的限制。
现在,随着 Momenta R6 飞轮大模型的上车,强化学习开始真正在量产车型中应用。但它更重要的意义或许在于,智能驾驶系统将不再只是单纯地模仿人类,而是可以从真实的驾驶过程中实现自我迭代、自我成长,一个智驾有望超越人驾的安全未来正在到来。
更早之前,曹旭东总结过智驾领域的摩尔定律,软件体验每两年提升 10 倍;硬件 BOM 成本(原材料成本)每两年降一半。他们的目标是超越智驾的摩尔定律。
©山上版权所有,未经授权,禁止转载
原文标题 : 强化学习真正上车,对标 FSD 级别的智驾来了