DeepMind 综述深度强化学习：智能体和人类相似度

近年来，深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就，从 Atari 游戏、到围棋、再到无限制扑克等领域，AI 的表现都大大超越了专业选手，这一进展引起了众多认知科学家的关注。不过 Deep RL 需要大量的训练数据，人们开始质疑深度强化学习过于依赖样本，导致效率低下，无法与人类学习的合理模型相匹配。

但在本文中，DeepMind 研究人员将利用最近开发的技术来驳回这些质疑声，这些技术不仅允许深度强化学习更灵活地运行，而且还使其更高效地解决问题。

第一代 Deep RL：强大但缓慢

在过去的几年里，人工智能研究取得了革命性的进展。神经网络和「深度学习」的复兴推动了图像识别、自然语言处理等许多领域的突破。这些发展引起了越来越多心理学家、心理语言学家和神经学家的兴趣，他们对 AI 发展是否意味着关于人类认知和脑功能的新假设展现出了充分的好奇心。

从这个角度来讲，AI 中最具吸引力的领域就是深度强化学习。因为它将神经网络建模与强化学习充分的结合起来，形成了一套从奖惩中学习而非从准确教学中学习的方法。数几十年来，深度强化学习更多的是理论层面的研究，直到近五年来，在电子游戏、扑克、多人游戏以及一些复杂的棋盘游戏中，表现出超人类的技术水平，一跃成为人工智能研究最激烈的领域之一。

图1 深层强化学习的代表性例子

除 AI 领域外，深度强化学习似乎和心理学与神经科学也有着紧密的联系。其驱动学习的机制最初是受动物调节作用的启发，并且被认为和基于奖励学习(以多巴胺为中心)的神经机制密切相关。同时，深度强化学习利用神经网络来学习支持泛化和迁移的强大表征，这正和生物大脑的核心相契合。

而正是这些关联，使那些对人类和动物的行为与神经科学学习感兴趣的研究人员，产生了丰富的联想与假设，从而开始将目光转向了深度强化学习。这样的结果，也对那些关于一代 Deep RL 发负面评论发出了警告。

看似深度强化学习和人类的学习方式完全不同：有人认为，这种差异在于二者的样本效率(学习系统达到任何选定目标性能水平所需的数据量)。基于这一标准，一代 Deep RL 确实与人类学习者有着极大的不同。为了在 Atari 游戏或国际象棋等任务中获得专业人士级表现，深度强化学习系统需要比人类多几个数量级的训练数据。

这样的评论确实适用于自2013年开始见于报道的一代 Deep RL 。然而，在那之后的短时间内，Deep RL 的研究发生了重要的创新，其样本效率得到显著提升。这些方法大大降低了深度强化学习对训练数据量的要求，也就相当于让深度强化学习变得快多了。这些计算技术的出现使 Deep RL 成为人类学习建模的候选模型，也是心理学和神经科学相关观点的重要启蒙。

以当下的视角，DeepMind 研究人员在这篇综述中探究了两种关键的 Deep RL 方法来解决样本效率问题：Episodic Deep RL和 Meta-RL 。他们检验这些技术如何加快 Deep RL 的效率，同时也探索了 Deep RL 对心理学和神经科学的潜在影响。

Deep RL 缓慢的原因

理解能够加速 Deep RL 的技术突破的关键点就是找到 Deep RL 在实际运行中缓慢的原因，DeepMind 描述了样本效率低下的两个主要原因。

第一个原因是增量式的参数更新。

一代 Deep RL 方法采用梯度下降来映射从输入环境到输出动作之间的关联性。正如人工智能和心理学的广泛讨论所得，在该形式下的学习过程，所做的调整必须很小，才能最大限度地泛化并避免覆盖早期的学习成果(这种影响有时会被引用『灾难性干扰』)。

第二个原因是弱归纳偏倚。

任何学习过程都必然需要在偏倚和多样性之间作出取舍。学习过程对学习模式的初始假设越强(即学习过程的初始归纳偏倚越强)，学习完成所需的数据就越少(假设初始归纳偏差与数据中的相符)。而具有弱归纳偏差的学习过程虽然能够习得更广泛的模式(即更佳的多样性)，但代价是降低样本效率。

所以，强归纳偏倚可以实现快速学习，在选取输入数据时仅考虑范围窄的假设学习系统，可以比弱归纳偏倚的系统更快地得到正确的假设(假设落入该狭窄的初始范围内)。更重要的是，通用神经网络是极低偏倚的学习系统，它们有许多参数(连接权重)，并且可以用来适应各种数据。

这两个原因共同解释了一代 Deep RL 缓慢的原因。而随后的研究表明，这两个原因都可以优化从而允许 Deep RL 以样本效率更高的方式进行。

Episodic deep RL：通过情景记忆进行快速学习

如果增量式的参数更新是深度强化学习缓慢的一个原因，那么减少增量更新则可以使其变快。

但单纯增加学习率来控制梯度下降优化，则会导致灾难性干扰的问题。所以，最近研究表明可以利用另一种方法实现目标：保留过去事件的明确记录，并直接将此记录用作制定新决策的参考点。这个被称为Episodic RL 的观点与机器学习中的「非参数」方法相似，类似于心理学理论中的「基于实例」或「基于样本」。

当遇到新情景并且必须决定采取何种行动时，系统会将当前情景的内部表示与过去情景的存储表示进行对比，根据与当前最相似的过去情况，然后选择与最高值相关联的动作。当内部状态表示由多层神经网络计算时，我们将得到的算法称为 Episodic deep RL 。

图2 一种情节强化学习算法的例子

Episodic deep RL 使用 Episodic memory 来估计动作和状态的值。该方法的成功取决于状态表示相似性的计算。在后续研究中，Pritzel等人表明，通过使用梯度下降学习逐步形成这些状态表示可以改善 deep RL 的性能。

与标准增量法不同，Episodic deep RL 可以及时利用之前情景事件所获得的信息来指导行为。虽然 Episodic deep RL 学习更快速，但归根结底，它仍然依赖于缓慢的增量学习。这些状态表示本身是通过增量学习而得，使用了相同类型的增量参数更新，才形成了标准深度强化学习的主干网络。最终，通过这种较慢的学习形式实现了快速的 Episodic deep RL ，这表示快速学习的基础正源于缓慢学习。「快速学习的基础是缓慢学习」并不是仅仅在强化学习里有效的巧合。实际上在下文中，DeepMind 进一步说明了这是在心理学和神经科学领域也广泛有效的基础法则。

Meta-RL：通过学习如何学习来加速 Deep RL

如前所述，一代 Deep RL 缓慢的第二个关键原因是弱归纳偏倚。

正如在偏倚和多样性的取舍概念中所形式化的，快速学习要求学习者使用一组合理大小的假设(关于它将面临的模式结构)，假设设置越窄，学习速度就越快。然而一个狭义的假设集只在它包含正确的假设的情况下，才会提高学习速率。因此，新的问题就是：学习者如何获得应该采用的归纳偏倚?

显而易见的答案就是：借鉴过去的经验，这也是人类在日常生活中会采用的方法。例如，有一个学习使用新智能手机的任务，在这种情况下，通常我们会将过去使用智能机和其他相关设备的经验，用来帮助我们学习。

利用过去的经验加速新学习的方式，在机器学习中被称为元学习。这个想法源于心理学，它也被称为「学习如何学习」。在第一篇使用「元学习」的论文中，Harlow 提出了一个实验，可以巧妙地捕捉它的原理。

实验中，猴子被提供了两个不熟悉的物体，允许抓住其中一个，并在下面放置食物奖励或空井。然后将物体再次放置在动物之前，可能左右颠倒，并且重复该过程总共六轮;然后换两个新的、不熟悉的物体，又进行了六次试验;接着是另一对物体，依此类推……

在众多物体对中，猴子会发现一个简单的规则总是存在：无论物品左右位置如何，只有一个能产生食物，而另一个物体不能。当呈现一对新的物体时，猴子能够一次性学习，这就是一个简单却形象的「学习如何学习」的例子。

图3 Harlow 的实验

而 AI 通过利用元学习来加速深度学习，这个总体思路已经以各种方式实现。其中，Wang 和 Duan 等研究者提出了一种与神经科学和心理学尤为相关的方法。在这方法中，循环神经网络可以在一系列相互关联的强化学习任务上进行训练。因为网络中的权重调整非常缓慢，所以它们可以得到不同任务中通用内容，但不能快速更改以支持任何单个任务的解决方案。

在这种情况下，循环神经网络的活动动态则可以实现他们独立的强化学习算法，该算法基于过去任务产生的知识「负责」快速解决每个新任务。实际上，一个强化学习算法产生另一个强化学习算法，因此称为「元强化学习算法 meta-RL」。

图4 元强化学习的示意图

与 Episodic deep RL 一样，Meta-RL 再次涉及快速和慢速学习之间的密切联系。循环神经网络的连接在各个任务之间缓慢学习与更新，让跨任务的一般原则能「内置」到循环网络的动态中，由此产生的网络动态实现了一种新的学习算法，则可以实现快速解决新问题。这一方法被慢速学习赋予了有用的归纳偏倚，再一次证明，快速学习源于慢学习并且通过慢学习实现。

Episodic Meta-RL

值得注意的是，以上两种技术并不相互排斥。近期的相关研究探索了一种整合 Episodic deep RL 和 Meta-RL 的方法，使它们实现效益互补，从而得到了 Episodic meta-RL。其中，元学习发生在循环神经网络中，而 Episodic memory 系统则叠加在这之上，其作用是复原该循环神经网络中的活动模式。

与 Episodic deep RL 一样，Episodic memory 系统对一组过去事件进行整合，使其可根据当前情景来查询这些事件。但是，Episodic meta-RL 不是将情景和估值直接连接起来，而是将情景与来自循环神经网络内部或隐藏单元的存储活动模式连接起来。这些模式很重要，因为它们通过 Meta-RL 总结得到智能体与各个任务交互中学到的东西。

在 Episodic meta-RL 中，当智能体处于类似于过去遇到的情况时，它会先恢复之前的隐藏活动，允许先前学到的信息立直接作用于当前策略。实际上，Episodic memory 允许系统识别先前遇到的任务，然后检索已存储的解决方案。

通过老虎机选择任务和导航任务的模拟工作，Ritter 等研究者证实了 Episodic Meta-RL 和原始 Meta-RL 一样，通过学习强大的归纳偏置，实现快速解决新任务。核心关键是，当处理之前发生过的任务时，Episodic Meta-RL 会立即检索并复原之前已有的解决方案，省去重新检索过程;而在首次处理新任务时，系统则充分利用 Meta-RL 的快速性;第二次和之后的处理中，它则受益于 Episodic control 所赋予的一次性学习功能。

对神经科学和心理学的启示

正如在一开始所讨论到，样本效率低下被作为质疑深度强化学习与人类和其他动物学习的相关性的理由。从心理学和神经科学的角度来看，Episodic deep RL 和 Meta-RL 的一个重要含义正是证实了 Deep RL 也可以实现快速处理，从而驳回了这一质疑。这样的结果证实了深度强化学习作为人类和动物学习的潜在模型是可行的。除此之外，Episodic deep RL 和 Meta-RL 的细节也引出了心理学和神经科学中有趣的新假设。

从 Episodic deep RL 中，我们会发现它与经典人类记忆模型之间的有趣联系。它为基于实例的处理如何来促进奖励驱动学习提供了合理解释。有趣的是，近期关于动物和人类强化学习的研究越来越多强调了 Episodic memory 的潜在贡献，越来越多的证据表明，状态和行为价值的估计是基于对过去特定行动观察的记忆检索。Episodic deep RL 提供了一个新的思维角度，用于探究这个一般原则如何扩展到多样的、高维的顺序学习问题上;更让人惊讶的是，它突出了表征学习和度量学习在基于 Episodic deep RL 之上，可能发挥的重要作用。这表明对于人和动物中快速片段强化学习与较慢学习过程的相互作用及紧密联系的研究是有成效的。

再谈到 Meta-RL，该算法对心理学和神经科学也有潜在的影响。实际上，Wang 等研究者提出了元强化学习的元素到神经网络结构和功能的直接映射。具体来说，他们提出多巴胺驱动的突触缓慢变化可用于调节前额叶回路的活动，使后者实现独立的学习过程。通过一系列的计算机模拟，Wang 等研究者以 Meta-RL 方式去证明了行为和神经生理学文献中的各种实证研究结果。

Wang 等研究者提出，Meta-RL 可以模拟生物大脑进行学习。他们认为以前额皮层(PFC)为中心的复位神经网络实现了学习的内循环，并且这种内循环算法由多巴胺驱动的突触可塑的外环慢慢形成。

在内循环中，前额皮层是快速学习的核心，其中的神经元用于支持这种学习的变量。例如，Tsutsui 等研究者从觅食任务期间的灵长类动物背外侧前额皮层(dlPFC)记录，当环境变量不断变化时，他们发现个体神经元不仅编码当前选项的值，而且还编码先前采取的行动，先前的奖励以及先前行动与先前奖励的相互作用。这些是在此任务中实施有效学习政策的关键变量。

而在外循环中。中脑多巴胺神经元被认为携带时间差异的奖赏预测误差(RPE)信号。在这个标准理论中，多巴胺驱动对皮层 - 纹状体突触的增量调整，这些调整使动物更容易重复强化行为。这种无模型学习系统通常被视为生活在大多数不同脑区的基于模型的系统的补充。

同样将 Episodic meta-RL 与心理学和神经科学联系起来。该算法涉及的复位机制直接受神经科学数据的启发，表明 Episodic memory 可用于复位大脑皮层的激活模式，包括支持工作记忆的区域。Ritter 等研究者展示了如何通过强化学习的优化配置，从而系统复位先前遇到的任务信息状态。除了从神经科学中汲取的最初灵感外，这项工作还通过为人类学习中最近报道的情节控制和基于模型的控制之间的相互作用提供简约解释而与生物学相关联。在更广泛的层面上，Ritter 等研究者报道的工作举例说明了元学习如何在多个记忆系统上运行，缓慢调整他们的交互，以便他们共同快速学习。

快速和慢速 RL：更深远的意义

在讨论 Episodic RL 和 Meta-RL 时，我们强调了「慢」学习在实现快速、样本有效学习方面的作用。在 Meta-RL 中，缓慢的、基于权重的学习，用于建立归纳偏倚来指导推理，从而快速去适应新任务。而在 Episodic RL 中，算法则依赖于对情景或状态之间相似性的判断。缓慢的学习形成了内部表示的方式，从而建立了一系列有关于状态之间联系的归纳偏倚。

进一步观察 Episodic RL ，我们可以发现学习架构中本身就存在归纳偏倚。Episodic RL 独特之处则是：假设一种简单原则，类似的状态通常产生类似的动作。这种归纳偏差不是用于学习，而是连接到定义 Episodic RL 的学习系统结构中。在当前的 AI 中，这是「架构」或「算法偏倚」，与「学习偏倚」有明显的区别。

目前人工智能研究主要集中在寻找有用的归纳偏倚以加速学习，通过学习、手工设计架构或算法偏倚来实现，而最后一种方法则是当下人工智能神经网络兴起的主要原因。其中，卷积神经网络提供了强有力的支持，它构建了一种与图像识别中的平移不变性相关的特殊结构偏倚。

从高层次来看，这些发展与心理学中一些长期存在的问题相似。如你所见，归纳偏倚可能通过学习获得的想法最初源于心理学，并且一直是心理学研究的间歇性话题。而神经网络中的元学习为学习如何学习的机制和动态提供了新的条件，尤其是在 RL 中。

在心理学方面，尤其是发展心理学，也长期以来一直在探索某些归纳偏倚「内置」的可能性，即内在特性。然而，结构偏差以及神经网络学习算法中的内置偏倚的原理概念被考虑得较少，当前的深度学习和深度强化学习的方法则为其提供了一个工具，有助于进一步探索。

值得关注的是，虽然人工智能工作在通过学习获得的归纳偏倚和手工「连接」的偏见之间产生了明显的区别，但从生物学来讲，可以获得更普遍、更统一的观点。具体而言，人们可以将架构和算法偏倚视为由进化驱动的不同学习过程产生的。这里的进化，是一种「缓慢」的学习过程，逐渐形成架构和算法偏倚，从而加快终身学习速度。

因此，元学习不仅在一个生命周期内发挥作用，而且在进化过程也发挥作用。有趣的是，这种观点意味着进化不会选择真正的「通用」学习算法，而是选择大脑在特定环境下的进化规律作为算法。在这样的情况下，AI 的最新发展再次证明其对于神经科学和心理学的探索具有实际意义。无论是专注于手工工程还是进化，AI 在构架和算法偏倚方面的工作为我们提供了一个新的思路——用于对进化是如何形成神经系统从而支持有效学习做进一步研究。人工智能研究提出的可能性包括对神经网络连接初始模式的限制;突触学习规则;和鼓励出现解离或组合表征的因素和内部预测模型。

从心理学，神经科学，进化和发展研究的角度来看，这些研究也绘制出了这样的蓝图：学习在许多时间尺度上同时运行，从几千毫秒到几毫秒之间，随着较慢的时间尺度得到偏差，使其在这之上实现更快的学习，并且所有这些都在进化、发展并且遵循着受环境结构强烈影响的轨迹。从这看来，进化形成了嵌入归纳偏倚的架构和算法;然后这些形成终身学习，它本身就会根据经验发展出进一步的归纳偏倚。

原论文链接：

https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0