近日,小鹏汽车正式发布世界模型X-World技术报告,从数据、模型、训练、验证及应用等多个层面,详细介绍了X-World的构建与使用。X-World是一个基于视频扩散生成技术构建的可控多视角生成式世界模型,具备多视角下即时响应与持续生成的能力。该模型已投入到闭环仿真测试、在线强化学习、数据生成等实际生产环节,并在近期向用户推送的第二代VLA研发与验证过程中,被大量用于环境仿真与模型评估。
构建可交互的“现实世界模拟器”
自动驾驶系统的评估主要依赖真实道路测试与仿真测试。传统仿真评估大量采用基于3D高斯溅射的技术路线,这类方法能够在一定程度上复现真实场景,但当自动驾驶模型产生大幅变道、绕行等明显偏离原始采集轨迹的行为时,往往难以对超出既有重建范围的后续场景进行有效生成与评估。
为突破这一瓶颈,小鹏生成世界模型团队尝试构建一个“现实世界模拟器”,使其在给定动作条件下生成符合物理约束的未来视频,并在持续生成过程中保持良好的可控性与稳定性。X-World通过输入多摄像头的历史视频流和待执行的驾驶动作,生成对应的未来多摄像头视频流。
架构层面,X-World基于当前领先的视频生成模型WAN 2.2构建,采用高压缩比3D因果自编码器,大幅降低计算与内存开销,支持长时序视频建模。模型骨干为定制化的DiT骨干网络,通过视角-时间自注意力机制,实现时间维度和视角维度的联合建模,确保7路摄像头视角间的一致性。X-World还提供了一套全面的条件控制接口,包括自车动作、动态交通参与者、静态道路元素、摄像头内外参,可对驾驶场景的生成过程进行细粒度调控。

跨视角一致性、动作跟随性与长视频推演能力
技术报告显示,X-World具备三大核心优势:跨视角一致性,确保各摄像头间的几何信息与目标特征一致;动作跟随性,生成的未来画面与指令要求的自车行为高度匹配;长视频推演能力,可在较长的时间跨度内实现稳定的预测。这些特性使生成式世界模型更接近实用的“现实世界仿真器”形态。
训练层面,团队采用两个阶段的训练方式:第一阶段,将大型预训练视频生成模型改造为完全可控的多摄像头世界模型;第二阶段,通过“分块因果架构”和“少步自强制学习”,结合滚动键值缓存,将模型转换为流式自回归模拟器。与传统的双向视频扩散模型不同,X-World采用流式自回归方式运行,逐步生成未来视频画面以进行实时交互,这一设计使模型能够天然适用于闭环场景。
实际应用:服务于第二代VLA的研发与验证
记者了解到,X-World已在小鹏汽车自动驾驶的闭环仿真测试、在线强化学习、数据生成等环节发挥作用。
托X-World,小鹏构建了面向第二代VLA的闭环评估引擎。区别于传统的基于3D重建的技术路线,X-World可进行交互式推演,并支持对安全关键指标进行评估。目前,小鹏自动驾驶仿真场景从一年前的3万个增加到50多万个,每日仿真测试里程等效于3000万公里实车测试。
X-World可充当在线强化学习的仿真平台,针对自动驾驶中的难点场景进行专项优化,如路口“鬼探头”、拥堵路段变道犹豫等场景。同时,X-World作为生成式数据工厂,既可生成缺失的长尾场景数据,提升第二代VLA应对复杂场景的能力,也可生成海外数据用于模型训练,加速小鹏自动驾驶全球化落地进程。
观察:仿真技术突破与自动驾驶研发范式演进
小鹏此次发布的世界模型技术报告,揭示了自动驾驶仿真测试领域的一次技术演进。传统的基于3D重建的仿真方法,在面对自动驾驶模型产生明显偏离原始轨迹的行为时,往往难以生成符合物理规律的后续场景。而X-World通过视频扩散生成技术,构建了可交互、可响应的“现实世界模拟器”,使仿真测试更接近真实道路测试的灵活性。
在自动驾驶技术路线从模块化向端到端演进的背景下,仿真测试能力正成为衡量研发效率的关键指标。小鹏将X-World直接应用于第二代VLA的研发与验证,显示出生成式世界模型已从实验室技术转化为工程化工具。对于行业而言,如何构建低成本、高效率、高保真的仿真测试环境,仍是自动驾驶研发的重要课题,而X-World的实践为这一方向提供了可参考的路径。