苹果研究人员训练AI驾驶员在模拟环境中合并车道

苹果尚未公开讨论其自动驾驶汽车研究，但这是一个秘密保存的行业秘密。据说大约有5,000名员工，其中包括一部分由Apple去年收购的自动驾驶汽车初创公司Drive.ai雇用的一部分，据称已与代号Project Titan一起参与，该项目与大众汽车共同开发自动驾驶汽车和穿梭货车。本周在Arxiv.org 上发表的预印本似乎进一步拉开了帷幕：在其中，苹果研究科学家Yichuan Charlie Tang及其团队详细介绍了一种AI方法，该方法为涉及合并车辆的驾驶场景逐步创建了更加多样化的环境。

Tang和合著者写道：“我们在具有挑战性的多代理合并交通仿真中演示了[我们的技术]，在该模拟中，代理必须与其他人进行交互和协商才能成功地在路上或路上进行合并。” “虽然环境从简单开始，但随着培训的进行，我们通过向代理'zoo'反复添加越来越多样化的代理集来增加其复杂性。定性地，我们发现通过自我扮演，我们的政策会自动学习有趣的行为，例如防御性驾驶，超车，屈服以及使用信号灯与其他特工交流意图。

正如研究人员所解释的那样，在自动驾驶领域，合并行为被认为是复杂的，因为它们需要准确地预测意图并做出相应的反应。传统的解决方案会做出假设并依赖于手动编码的行为，但是这些导致受限且脆弱的策略，这些策略无法很好地处理边缘情况，例如车辆试图同时合并到同一车道。与基于规则的系统相比，强化学习（一种AI培训技术，利用奖励将软件策略推向目标），通过与环境的反复交互来直接学习策略。

苹果自动驾驶AI

在相关研究中，Tang及其团队在通过模拟卫星图像标注实际道路几何形状的交通的二维模拟中实施了一项自演训练方案。他们在虚拟世界中充斥着能够跟踪车道和变道的特工，这些特工随着时间的推移学会了何时减速，何时加速，何时发现差距并入，其他特工的潜在目标和信念，以及如何通过转向信号或可观察到的行为传达他们的意图。

每次模拟均以一个AI控制的代理程序为基础，该代理程序由基于规则的代理程序围绕，这些代理程序使用自适应巡航控制从车道执行车道保持（即，相对于前方车辆减速并相应加速）。逐渐地，人工智能特工取代了基于规则的特工，后者因越界，偏离车道中心或与其他特工发生冲突而受到惩罚。（他们因成功完成合并并以每秒15米或每小时约33.6英里的速度行驶而获得奖励。）对于每个模拟情节，其中32个在Nvidia Titan X图形卡上并行运行，大约10个代理商是用他们自己的随机目的地发起的；情节在1,000个时间步之后，发生碰撞后或到达目的地之后结束。

这是一个三个阶段的过程：

在第一阶段，仅在基于规则的代理程序的情况下对AI策略进行了培训。
在第2阶段中，在30％IDM代理人，30％是第1阶段的RL代理人的情况下训练了自我玩耍，而其他40％则受当前学习策略的控制。
将阶段3添加到阶段2的代理中。

研究人员特别关注拉链合并（也称为双重合并），这被认为很困难，因为左车道驾驶员通常打算向右合并，而右车道驾驶员则需要向左合并。信号和微妙的线索被用来协商谁先走，哪个空白被填补，并且计划必须在短时间内，短距离内完成。

研究人员观察到，在相当于278个小时的实时体验的1000万个环境步骤中，AI代理倾向于利用基于规则的代理的行为来谋取自己的个人利益。例如，具有制动倾向的基于规则的代理突然发现自己受制于从未屈服的“超进取” AI代理。就是说，基于规则的代理通常会归咎于涉及他们和AI代理的冲突。

为了评估他们的方法，研究人员进行了250多次随机试验，而没有增加探索噪音。他们报告说，与基于规则的代理（成功率为63％）相比，训练有素的AI代理对基于规则的AI代理和其他AI代理的成功率为98％。现有的算法并不完美-AI代理有时在尝试制动时会发生碰撞，并在紧急制动时向右侧转向-但是Tang和同事说，这为将来的工作打开了大门，这可能会将碰撞率降低到零。