• 最近访问:
发表于 2025-11-22 13:41:30 股吧网页版
Transformer如何让自动驾驶变得更聪明!
来源:OFweek

  自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。

  这种能力对自动驾驶来说至关重要。由于驾驶场景复杂多变,自动驾驶系统需要同时处理来自摄像头、毫米波雷达、激光雷达和高精地图等多种来源的数据,还要理解车辆、行人等参与者之间随时间的动态交互。传统方法在应对这种多模态、长时序的信息关联时会感觉力不从心,而Transformer的架构特性刚好弥补了这些短板。

图片源自:网络

  Transformer能将“前方100米处一个模糊的物体”、“旁边车道一辆正在减速的汽车”以及“几秒钟前路口突然出现的行人”这些看似独立的信息碎片,整合成一套统一的“输入单元”。它会自动在这些单元之间建立有用的联系,最终提炼出对当前驾驶决策最有价值的核心信息。这种强大的全局关联能力,让感知、预测和规划这些原本界限分明的模块,可以用一种更集成、更智能的方式协同工作。

  Transformer的核心机制:自注意力和多头注意力

  Transformer之所以强大,其关键在于“自注意力”机制。自注意力机制会将输入的每一个元素(比如图像的一块patch、激光雷达的一个点)转化为Query(查询)、Key(键)、Value(值)这三种不同的向量:

  查询:可以理解为当前元素提出的问题:“我应该关注谁?”

  键:是其他元素提供的标识:“我是谁?”

  值:是其他元素所包含的实际信息:“我有什么内容。”

  查询会和所有键做相似度比较,得到权重,再把这些权重作用到所有值上,最终得到这个位置的新表示。这个过程就是让模型自己决定“我应该关注哪些其他位置的信息来更新当前位置的理解”。为了稳定训练过程,注意力计算会通过一个缩放因子进行调整。

  Transformer不会只做一次注意力计算,而是采用“多头注意力”,即可以同时进行多组独立的注意力运算。这好比让多个专家从不同角度分析同一段信息,有的专家专注于局部细节,有的专家则善于把握全局关系,他们最后会将见解综合起来,形成更全面、更深刻的理解。

图片源自:网络

  对于自动驾驶中常见的时间序列问题,Transformer可以轻松地将过去若干帧的数据作为输入序列,通过注意力机制直接学习不同时刻之间的依赖关系。再辅以“位置编码”来告知模型各个输入单元的先后顺序,从而有效地预测出车辆、行人未来的运动轨迹。

  Transformer对感知的好处

  之前,感知里最常见的做法是用卷积网络做图像特征提取,再用专门的检测头(如Faster R-CNN、YOLO)做目标检测。Transformer做的就是把检测问题重新表述成了“一组查询去匹配场景里的物体”,这类方法(比如DETR、以及后续变体)减少了很多手工设计的锚框、NMS(非极大值抑制)等步骤,思路上更直接,也更统一。

  1)长距离与稀疏目标的检测更鲁棒

  得益于全局注意力,Transformer在分析一个远处的小目标时,能够同时参考近处的大物体和整体的场景上下文。这在目标被部分遮挡或图像分辨率有限的情况下尤其有用,模型可以依据其他相关线索推断出“那可能是一个行人”或“远处有一辆停靠的车辆”。

  2)多模态融合更自然

  自动驾驶车辆装备了如摄像头、毫米波雷达和激光雷达等传感器,Transformer则提供了一个统一的框架,可以将这些不同来源的数据都表示为“输入单元”,然后通过跨模态注意力机制让它们自由地交流信息。举个例子,激光雷达提供的精确三维点云信息可以与摄像头丰富的纹理、颜色信息相互补充,模型能自动学习在何时、以何种方式信赖哪一种传感器,实现真正意义上的早期融合。

图片源自:网络

  3)端到端的检测与跟踪更容易结合

  Transformer可以把检测框、历史轨迹、甚至ID信息都当作token,让模型同时做检测和关联,能减少后处理步骤,降低误关联(ID-switch)的概率。Transformer在多目标跟踪(MOT)领域的进展,可以有效解决自动驾驶里连续帧中物体身份保持的问题。

  Transformer如何让决策更有洞察力

  预测其他道路参与者的未来轨迹,并规划出自车的安全路径,是自动驾驶的核心任务,为实现这一目标,需要模型具备强大的推理能力,能够理解参与者之间复杂的时空交互。Transformer的自注意力机制在这里再次展现出巨大优势。

  1)更好地建模交互行为

  传统方法在建模多智能体交互时会显得比较僵硬。而Transformer的注意力机制天生就能计算任意两个参与者之间的影响程度,并能动态地将注意力聚焦在“关键参与者”上。如在通过一个无信号灯的路口时,Transformer能同时考虑左侧来车、右侧准备横穿的行人以及前方车辆的意图,从而生成多种合理的未来概率分布,以便自动驾驶汽车可以安全、高效地驾驶。

  2)长时记忆更友好

  某些驾驶行为的预测需要回顾较长的历史信息。要预测一个行为,有时候需要回看很长时间的过去状态(比如某辆车的转向灯在几秒前就亮了,但始终慢速行驶,现在终于开始并线)。Transformer对长序列的处理比传统LSTM等要更为稳健,而且可以并行计算,训练效率会更高。当然,为了处理更长的历史信息,需采用稀疏注意力、局部—全局混合机制或缓存机制来控制计算量。

图片源自:网络

  3)规划可以直接利用预测注意力

  当预测模块和规划模块都基于Transformer构建时,它们之间的信息流动会更加顺畅。规划模块不仅能看到预测模块输出的轨迹,甚至能“看到”预测过程中的注意力分布,即其他交通参与者最关心谁。这为自车的决策提供了更深层次的上下文,如在通过一个拥挤路口时,自动驾驶汽车可以对那个注意力高度分散、行为不确定的车辆保持更大的安全距离。

  最后的话

  Transformer为自动驾驶带来了一种更强大、更灵活的“信息关联与理解”的新范式。它让机器能够像人类一样,更全面地审视复杂的驾驶环境,将不同来源、不同时间的信息融会贯通,从而做出更前瞻、更合理的决策。

-- END --

  原文标题 : Transformer如何让自动驾驶变得更聪明?

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500