端到端自动驾驶的演进与核心博弈：从 1.5 代双分支到世界引擎的必然之路_可思数据

在 2025 年 CVPR 自动驾驶 Workshop 上，香港大学 Li Hongyang 教授的《自动驾驶端到端方法：现状与展望》演讲，为行业厘清了端到端技术的发展脉络 —— 从早期单一模型映射，到 1.5 代的双分支分化，再到面向 L4 落地的 “世界引擎” 破局思路，每一步都折射出自动驾驶从 “技术探索” 向 “工程落地” 的核心诉求。本文结合演讲核心观点与行业实践，系统梳理端到端自动驾驶的前世今生，并解析 VLA 与 WM 世界模型的定位差异，最终回归 “世界引擎为何是必选项” 的核心命题。

一、重新定义端到端：不止是 “传感器到控制”，更是架构范式的革新

Li Hongyang 在演讲中首先明确了端到端自动驾驶的核心定义：“学习单一模型，直接将原始传感器输入（图像、点云、车辆状态等）映射到驾驶控制指令（转向、刹车、油门）”，其本质是用 “统一函数” 取代传统自动驾驶的 “感知 - 定位 - 预测 - 规划 - 控制” 模块化流水线。
这种架构革新的关键价值在于两点：

简化链路，降低延迟：省去模块间数据转换的中间环节（如感知结果向规划模块的语义对齐），端到端模型可直接输出控制指令，理论响应速度比模块化架构快 30%-50%，这对高速、突发场景的安全至关重要；
适配数据驱动逻辑：训练依赖 “输入 - 输出” 的直接映射，无需手动编写复杂规则（如 “无保护左转时的让行优先级”），只需通过海量标注数据让模型自主学习驾驶逻辑 —— 训练方式可灵活采用监督学习（SL）、模仿学习（IL）或强化学习（RL），核心是 “数据决定模型能力边界”。

需注意的是，端到端并非 “无模块”，而是 “模块隐式化”：当前先进的端到端方案（如 UniAD、V-AD）仍会在模型内部嵌入目标跟踪、轨迹预测等子功能，但这些子功能通过统一模型参数联动优化，而非独立模块拼接 —— 这也解释了为何 VLA（视觉 - 语言 - 行动）与 WM（世界模型）虽看似路径不同，却都隶属于端到端的大框架下。

二、端到端的 “前世今生”：从黑白图像到 1.5 代双分支的演进之路

Li Hongyang 将端到端自动驾驶的发展划分为三个关键阶段，每个阶段的技术突破都围绕 “解决前一阶段的核心痛点” 展开：

1. 早期探索阶段（2000s-2010s）：从 “能跑” 到 “基本可用”

技术特征：以单一传感器输入（如黑白图像、简单激光雷达数据）为主，模型目标是实现 “结构化道路的基础跟车、车道保持”；
代表方法：条件模仿学习（Conditional Imitation Learning）通过专家驾驶数据，让模型学习 “给定导航指令（如‘左转’）时的控制输出”；泛化性优化工作则尝试解决 “不同光照、简单天气” 下的适配问题；
局限：场景覆盖极窄（仅能应对高速、无复杂交互的路况），对行人、突发障碍物的处理能力几乎为零，本质是 “实验室原型”，无法落地。

2. 模块化端到端阶段（2020s 初）：嵌入显式功能，提升鲁棒性

技术特征：在端到端模型内部嵌入显式功能模块（如地图匹配、运动规划子网络），同时引入多模态传感器融合（相机 + 激光雷达）；
代表方法：Andrew Gigard 团队提出的 “可解释性网络”，通过多模态输入（图像 + 点云）让模型输出 “目标检测框 + 轨迹预测结果”，再映射到控制指令；PPJL、Soft ACT 等工作则通过预训练技术，提升模型对 “陌生路段” 的适配能力；
突破与不足：首次具备 “城区简单道路” 的通行能力，但仍受限于 “已知场景”，对 “极端天气、长尾事件（如施工区临时改道）” 的处理能力薄弱 —— 核心问题是 “真实路测数据无法覆盖所有风险场景”。

3. 1.5 代端到端阶段（2023-2025）：基础模型驱动，分化双分支

这是当前行业所处的关键阶段，核心标志是 “基础模型（Foundation Models）融入端到端架构”，通过大模型的泛化能力解决长尾问题，同时分化出两条技术路径：

分支类型	核心技术逻辑	代表方案与能力特点	优势与局限
WM 世界模型分支	构建 “环境动态模拟器”，通过多模态输入预测未来场景，再生成控制指令	- Drive Dreamer：用扩散模型生成多视图未来视频，预测车辆、行人运动轨迹；- Cosmos Predict One：结合高精地图，模拟 “极端天气（暴雨、大雾）下的场景演变”；- Gaia 2：视频生成模型，重点优化 “危险场景（如前车急刹、行人横穿）的多样性生成”	优势：可主动生成罕见场景数据，弥补真实路测不足；局限：仿真与现实的 “域差” 难以完全消除，生成场景的物理真实性（如路面摩擦系数、车辆动力学）可能与实际偏差
VLA 分支	以 “语言” 为中间桥梁，连接视觉感知与动作输出，通过语言推理优化决策逻辑	- Java LM：提出 “草图维基”，用文本描述驾驶场景（如 “前方 50 米有施工，需借道超车”），再转化为控制指令；- Lingo Tool：通过语言思维链（Chain of Thought）分解复杂决策（如 “无保护左转→观察对向直行车→判断行人意图→调整车速”）；- Job VRM：双模型协同（小模型处理常规场景，大语言模型处理复杂交互），平衡延迟与精度	优势：决策可解释性强（语言推理过程可追溯），人机交互更自然；局限：语言符号化过程可能导致精度损耗，大模型推理延迟较高（部分方案延迟超 100ms，不满足高速场景需求）

Li Hongyang 强调，1.5 代的本质是 “用基础模型的能力补全端到端的短板”——WM 试图解决 “数据稀缺”，VLA 试图解决 “决策不可解释”，但两者都未脱离 “数据驱动” 的核心，也都面临 “如何走向大规模工程落地” 的共同挑战。

三、L4 落地的核心瓶颈：长尾问题与 “数据收集悖论”

尽管特斯拉 FSD 的 “每次接管跑的公里数（MPI）” 逐年提升（北美数据显示，2025 年 FSD 的 MPI 已突破 1500 公里），但 Li Hongyang 通过一组关键数据揭示了行业的核心困境 ——“数据收集悖论”：
如上图所示，X 轴代表 “驾驶场景类型”，从左到右依次为 “常规场景”“边缘场景”“安全关键场景（濒临事故）”；Y 轴包含两条曲线：

黑色曲线（危险概率）：随着驾驶里程累积，常规场景的感知、决策问题已基本解决，剩余 20% 的长尾场景（如 “暴雨天施工区 + 行人横穿 + 定位信号丢失”）发生概率极低，但一旦发生就是高风险事故；
红色曲线（部署成本）：要收集这些 “十年一遇” 的安全关键场景，需要投入庞大的车队规模（特斯拉北美车队超 200 万辆），且每增加 1% 的场景覆盖率，成本会呈指数级上升 —— 更严峻的是，“收集危险场景” 本身可能伴随安全风险（如为了采集 “前车急刹” 数据，需让测试车接近危险状态）。

这一悖论直指端到端自动驾驶的核心矛盾：“要实现 L4 级安全，需要覆盖所有长尾场景；但真实世界中，越关键的场景越难收集，且收集成本越高”。正是基于这一困境，Li Hongyang 提出了 “世界引擎（World Engine）” 的破局思路。

四、世界引擎：端到端自动驾驶的 “终极数据与算法闭环”

Li Hongyang 提出的 “世界引擎”，本质是一套 “主动生成高价值数据、优化端到端模型” 的全链路系统，核心由 “数据引擎（Data Engine）” 与 “算法引擎（Algorithm Engine）” 两部分构成，共同解决 “长尾场景数据稀缺” 与 “模型迭代效率低” 的问题：

1. 数据引擎：主动生成安全关键场景，替代 “被动路测收集”

数据引擎的核心逻辑是 “从已有专家驾驶数据中提取特征，生成海量相似但更极端的场景”，具体分为三步：

源场景挖掘：从真实路测日志中筛选 “潜在风险场景”（如 “行人靠近车道边缘”“前车刹车灯亮起”），作为生成的 “种子数据”；
极端场景生成：通过扩散模型、物理仿真引擎，对种子场景进行 “风险放大”—— 例如将 “晴天行人横穿” 扩展为 “暴雨天 + 逆光 + 行人突然冲出”，将 “单一车辆加塞” 扩展为 “多车连续加塞 + 非机动车干扰”；
传感器级渲染：将生成的场景转化为 “传感器可感知的原始数据”（如相机图像、激光雷达点云、毫米波雷达信号），确保数据格式与真实采集一致，可直接用于模型训练。

这一过程的价值在于：无需依赖庞大车队，即可在数周内生成百万级安全关键场景数据，且场景的 “危险程度” 可精确控制（如调整行人与车辆的距离、路面摩擦系数），大幅降低数据收集成本与安全风险。

2. 算法引擎：闭环优化端到端模型，提升泛化能力

算法引擎是 “世界引擎” 的 “大脑”，负责将数据引擎生成的场景转化为模型能力的提升，核心是 “闭环迭代”：

模型测试与弱点定位：将生成的极端场景输入端到端模型，记录模型的误判情况（如 “漏检施工标志”“决策延迟”），定位算法薄弱环节；
针对性训练：用高价值场景数据对模型进行微调，重点优化弱点（如针对 “暴雨天感知” 补充训练）；
真实场景验证：将优化后的模型部署到少量测试车，收集真实路测反馈，若发现新的误判，再回流到数据引擎生成对应场景 —— 形成 “生成 - 训练 - 验证 - 再生成” 的闭环。

Li Hongyang 强调，世界引擎并非 “取代真实路测”，而是 “放大真实路测的价值”—— 通过仿真生成的场景解决 “数据稀缺”，通过真实路测解决 “仿真域差”，两者结合让端到端模型的迭代效率提升 10-20 倍。

五、VLA 与 WM 的博弈：路径差异下的共同目标

演讲最后，Li Hongyang 针对当前行业 “VLA 与 WM 孰优孰劣” 的争论给出了明确观点，结合行业实践可总结为三点：

WM 是 “终极目标”，但当前仍处 “概念大于落地”：WM 的核心价值是 “完全模拟现实世界”，理论上可覆盖所有场景，但受限于物理仿真精度（如车辆动力学、行人行为随机性），目前生成的场景仍存在 “失真” 问题 —— 国内部分企业提及的 “WM 世界模型”，更多是 “基于高精地图的场景回放”，而非真正的 “动态模拟器”，存在一定的概念夸大。
VLA 是 “现阶段更务实的路径”：VLA 通过语言推理提升决策可解释性，不仅符合监管对 “自动驾驶决策可追溯” 的要求，也能通过 “小模型 + 大语言模型” 的协同（小模型处理常规场景降延迟，大模型处理复杂交互保精度），快速落地到 L2+、L3 级产品 —— 例如华为 ADS 4.0 的 “自然语言交互决策”，本质就是 VLA 思路的工程化应用，已实现城区复杂道路的稳定通行。
两者最终都需依赖世界引擎：无论 VLA 还是 WM，都无法回避 “长尾场景数据稀缺” 的问题 ——VLA 需要世界引擎生成 “复杂语言描述的危险场景”（如 “前方施工，同时有非机动车逆行”），WM 需要世界引擎优化 “仿真场景的真实性”，甚至可以说，“世界引擎是 1.5 代双分支走向第二代端到端（工程化落地阶段）的必经之路”。

六、结语：从 “技术路线之争” 到 “落地能力比拼”

Li Hongyang 的演讲本质上传递了一个核心观点：端到端自动驾驶的竞争，已从 “选 VLA 还是选 WM” 的路线之争，转向 “谁能更快解决工程落地问题” 的能力比拼。
1.5 代的双分支是行业探索的必然产物，WM 代表了 “对终极场景覆盖的追求”，VLA 代表了 “对现阶段可解释性与落地效率的平衡”，两者没有绝对的优劣，只有 “适配不同产品目标” 的差异。但无论选择哪条路径，都绕不开 “世界引擎” 的支撑 —— 因为只有通过主动生成高价值数据、构建 “数据 - 模型 - 验证” 的闭环，才能突破 L4 落地的 “数据收集悖论”。
对行业而言，与其纠结 “WM 和 VLA 谁更先进”，不如聚焦 “世界引擎的仿真精度如何提升”“VLA 的推理延迟如何降低”“WM 的域差如何缩小” 等具体工程问题。毕竟，自动驾驶的终极目标不是 “技术名词的胜利”，而是 “安全、可靠地服务于真实道路”—— 这也是世界引擎被寄予厚望的核心原因。

转载请注明：可思数据 » 端到端自动驾驶的演进与核心博弈：从 1.5 代双分支到世界引擎的必然之路

免责声明：本站来源的信息均由网友自主投稿和发布、编辑整理上传，或转载于第三方平台，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：elon368@sina.com