如何教会AI像人类一样进行规划？

人类的规划是分层级的。无论是做晚餐这种简单的事，还是如出国旅行这种稍微复杂的事，我们通常都会先在脑海中勾勒出想要实现的目标，接着进一步把目标逐步细化为一系列详细的下级目标、下下级目标等，最终实际的行动顺序会比最开始的计划复杂得多。

高效规划需要了解构成分层规划的实质的抽象高级概念。至今，人类习得这种抽象的概念的过程仍然未知。

人类能自发构建这种高级概念，可以根据所处环境的任务、回报和结构，做出高效的规划。同时，由于这种行为与底层计算的形式化模型是一致的，这些发现因此得以建立在既定的计算原则上，并和以前分层规划的相关研究联系起来。

分层规划示例

上图描述了一个分层规划的例子，即一个人是如何规划离开在剑桥的办公室，之后前往印度的Patna购买一件梦想的婚纱装饰。圆表示状态，箭头表示状态之间的转换。每个状态代表了一组较低级别的状态。加粗的箭头表示的是通常最先在脑海中闪现的高级状态之间的转换。

贝叶斯视角

当应用于计算式智能体时，分层规划使模型具备更高级的规划本领。通过假设一个在特定环境结构下的生成过程，可以从贝叶斯视角对分层代表进行建模。有关这一问题的现有工作包括开发一个计算框架，以便在一系列简化过的关于层级结构的假设下获取分层代表，即模拟人们如何在无奖励环境的心理表征下，创建方便规划的状态集群。

在为了预测聚类的形成，并将该模型与人类的数据进行比较，我们创建了一个结合聚类和奖励的层次化发现的贝叶斯认知模型。

我们分析了静态和动态两种奖励机制下的情况，发现人类将奖励信息泛化到高层集群中，并利用奖励的信息来创建集群，说明模型可以预测奖励泛化和基于奖励的集群形成。

理论背景

心理学和神经科学交叉的关键领域即是形式上理解人类行为与指定行为的关系。我们想知道：完成某个任务后，人工智能接着会采用什么样的计划和方法?人类是如何发现有用的抽象概念?

这个问题很有趣，人类和动物拥有适应新环境的独特能力，以前关于动物学习的文献表明，这种灵活性源于目标的分层代表，这使复杂的任务分解成可延伸至各种环境的低级子程序。

分组

分组发生在动作被组合成可以实现更远目标的延时的动作序列，它通常出现在学习从目标导向系统转移到以刻板的方式执行动作的习惯系统之后。

从计算的角度来看，由于这种分层代表，智能体能够在开环中快速执行操作;可以在遇到已知的问题时重复利用熟悉的操作序列;甚至能够调整已建立的动作序列来解决以前遇到过的问题，从而更加快速地学习并延长时间范围内的计划。

智能体不需要考虑与目标相关的细枝末节，例如，去商店的目标被分解为离开房间、步行和进入商店，而不是起床、左脚前移到右脚前移等。

分层强化学习

智能体如何做出能得到奖励的决定是强化学习的主题。分层强化学习(HRL)已成为描述分层学习和规划的主流框架，在对HRL建模的研究中，已经存在围绕构建模型的潜在方法的观点。

笔者关注到人们自发地将环境规划为制约规划的状态集群。在时间和记忆方面，这种分层规划比平面规划更为有效，后者包括低级别的行动，并有赖于人们有限的工作记忆容量。

在下图中，粗节点和粗边表示必须在短期记忆范围内考虑和维护它们，以便计算规划，灰色箭头表示集群成员。低级别图G中，从状态s到状态g的规划所需步骤至少是与实际执行计划的步骤相同(顶部)，引入高级图H缓解了这一问题，降低了计算成本(中间)。同时，进一步扩展递归层次减少了规划(底部)所涉及的时间和内存。

Solway等人提供了一个最优分层的正式定义，但他们没有明确大脑可能如何发现它。笔者假设了一个最优分层取决于环境结构，包括图结构和环境可观察特征的分布，特别是奖励。

模型

假设智能体将其环境视作一个图，其中节点是在环境中的状态，边是状态之间的转变。这些状态和转变可以是抽象的，同样，它也可以如地铁站及其中的行驶的列车路线一样是具体的。

结构

将可观测环境表示为图G=(V，E)，潜分层表示为H。G和H都是无权无向的，H由集群组成，其间G中的每个低级节点恰好属于一个集群，以及连接这些集群的桥或高级边。集群k和k′之间的桥只有在某些v，v′∈V之间存在一条边使v∈k和v′∈k'的情况下才会存在，即H中的每一条高级边在G中都有一条对应的低级边。

在下图中，颜色表示集群分配。规划时规划者会考虑黑色边缘，但忽略灰色边缘，粗边对应于集群之间的转变，集群w和z之间的转变是通过一个桥来完成的。

高级图(顶部)和低级图(底部)的例子

在添加奖励之前，学习算法在发现最优分层的时候会受以下制约：

小集群
集群内的紧密连接
集群间的稀疏连接

然而，我们不希望集群太小——在极端情况下，每个节点都是自己的集群，这让层次结构毫无用处。此外，虽然跨集群的稀疏连接是我们所期望的，但我们也希望集群之间的桥梁仍存，借以保留底层图片的属性。

我们使用了离散时间随机的中餐馆过程(CRP)作为聚类的先验。分层发现在倒置生成模型以获得分层H后验概率的过程中实现。在中正式出现的生成模型生成了该分层。

奖励

在图G的语境中，奖励可以解释为顶点的可视特征。由于人们通常基于可视的特征进行聚类，因此由奖励诱导的聚类模型是合理的。此外，我们设定了每个状态都提供一个随机确定的奖励，而智能体的目标是最大化总奖励。

因为我们假设集群会诱导奖励，所以建立的每个集群具有均等回报。该集群中的每个节点都有一个从均等奖励集群为中心的分布中提取的均等奖励。最后，每个可视奖励都是从以该节点的均等奖励为中心的分布中提取的。

为了简化推论，首先假设报酬是恒定的、静态的。某些在固定概率的观测值之间变化的奖励被标记为动态的。

我们用了两个实验来验证关于人类行为的假设，以及了解模型的预测能力。特别的是，我们研究了集群在多大程度上推动了对奖励的推导，以及在多大程度上奖励驱动了集群的形成。对于每个实验，我们都收集人类数据并将其与模型的预测进行比较。

集群诱导奖励

第一个实验的目标是了解奖励在状态集群中普及的方式。我们测试了图形结构是否驱动了集群的形成，以及人们是否将在一个节点上观察到的奖励推广到该节点所属的集群。

建立

让32名受试者按照下面的场景，选择下一个要访问的节点。下面的图表或是它的翻转版本会被随机地呈现在参与者面前，以确保没有人为偏差或未介绍的图形结构。我们预测参与者选择的节点会靠近位于更大集群处的标记节点，第一种情况下，灰色节点位于蓝色节点左侧，灰色节点位于蓝色节点右侧。

以下任务和相关图表会展示给参与者：

你在一个由多个独立矿山和隧道组成的大型金矿中工作。矿井布局如下图所示(每个圆圈代表一个矿井，每条线代表一个隧道)。你每天都有报酬，此外当天发现的每克黄金都有10美元的报酬。你每天只挖一个矿，并记录下当天的黄金产量(以克为单位)。在过去的几个月里，你发现平均来说，每个矿每天产出约15克黄金。昨天，你在下图中挖了一个蓝色的矿，得到了30克黄金。你今天要在两个矿井(阴影部分)中挖哪一个?请圈出你选择的矿。

展示给参与者的矿井图纸

我们希望大多数参与者能够自动识别以下用桃色和薰衣草色的节点来表示的不同集群，并根据这些集群决定选哪一个集群。假设参与者会选择桃色而非薰衣草色的的节点，因为标签为30的节点(比平均值大得多)位于桃色集群中。

展示给参与者的和集群类似的矿井图纸

推论

我们使用了Metropolis-within-Gibbs抽样，对H近似套用了贝叶斯推导。这组样本通过H的后续取样来更新H的每个分量，在一个Metropolis-Hastings步骤中对所有其他分量进行条件调节。使用高斯随机游走作为连续分量的建议分布，并使用有前提的CRP先验作为分组分配的建议分布。该方法可以被解释为随机爬山算法后续定义了一个效用函数。

结果

在真人组和模拟组中各有32名参与者。模型输出的前三个集群如下所示(左侧区域)。所有前三名的结果都是一样的，这表明该模型以很高的可信度识别了有色分组。

参与者和静态奖励模型的结果显示在下面的条形图(右面区域)中，展示了选择下一访问节点2的人类和模拟受试者的比例。实心黑线表示平均值，黑色虚线表示2.5%和97.5%。

聚类实验中奖赏泛化的结果

下表中的p-value是通过右尾二项检定计算的，其中空值假设为二项分布，而非选择左、右灰色节点。显著性水平取0.05，人体实验结果和模型结果均具有统计学意义。

人类行为与静态奖励模型

奖励诱导集群

第二个实验的目标是确定奖励是否会诱发集群。我们预测，即使图的结构本身不会诱导聚类，但相邻位置相同奖赏的节点也会聚集在一起。

Solway等人的研究表明人们更喜欢跨越最少分层边界的路径。因此，在两条完全相同的路径之间，选择其中一条路径的唯一原因是它跨越了更少的分层边界。对此可能的反驳是，人们会选择的是奖励更高的路径。

然而，在下面详述的建立中，只在目标状态下会提供奖励，而不是沿着所选的路径渐次累积。此外，奖励的大小在不同的试验中是不同的。因此，人们不太可能因该路径的节点有更高的奖励而喜欢上一条路径。

建立

这个实验是在网络上使用亚马逊Mechanical-Turk(MTurk)。参与者会获得以下任务背景：

假设你是一名矿工，在由隧道连接的金矿网络中工作。每个矿每天产出一定数量的黄金(以“点数”指代)。在每一天，你的工作是从一个起始矿井导航到一个目标矿井，并在目标矿井收集点数。在某些日子里，你可以自由选择任何你喜欢的矿井。此时，你应该试着选一个所得点数最高的矿。而在其他日子里，只有一个矿是可用的。该矿的点呈绿色，其他矿点呈灰色不可选。此时你只能导航到可用矿井。每个矿井的点数都会在上面写明。当前矿井将用粗边界突出显示。你可以使用箭头键(上、下、左、右)在矿井之间导航。一旦你到达目标矿井，按空格键收集点数并开始第二天的工作。实验将有100天(试验)。

下面的图表(左边)呈现给参与者。为了控制潜在的左右不对称性，与之前的实验一样，参与者被随机分配到图中所示的布局或其水平翻转版本。预期的诱导集群也被描述，并编号了节点以供参考(右边)。

向MTurk参与者展示的矿井图(左)，以及可能的集群(右)

我们将第一种情况称为参与者选择自由式导航到任何矿井，第二种情况是参与者固定选择式导航到指定矿井。参加者在每次试验中都会获得金钱奖励，以阻止随机响应。

在每次试验中，奖励值的变化概率为0.2。新的奖励从区间[0，300]中随机抽取。然而在试验之间，奖励的分组保持不变：节点1、2和3始终共有一个奖励值，节点4、5和6共有另一种的奖励值，节点7、8、9和10具有第三种奖励值。

前99次试验允许参与者建立一个集群的分层结构。实验的最终试验要求参与者从节点6导航到节点1。假设奖励诱导了上面所示的集群，我们预测更多的参与者将选择通过节点5的路径，该节点只跨越了一个集群边界，而通过节点7的路径跨越两个集群边界。

推论

我们建立了固定选择案例的模型，假设所有100个试验中的任务都与提交给参与者的第100个试验相同。首先假定静态奖励，在所有的测试中，该奖励保持不变。接下来，假设动态奖励，即每次试验的奖励都会发生变化。

与之前模型预测参与者选择的节点的实验不同，本实验关注的是参与者选择的从起始节点到目标节点的完整路径中的第二个节点。因此，为了将模型与人为数据进行比较，使用广度优先搜索的一种变体(以下称为分层BFS)来预测从起始节点(节点6)到目标节点(节点1)的路径。

静态奖励。对于每个受试者，使用Metropolis-within-Gibbs抽样，从后验样本中取样，并选择最有可能的分层，即具有最高后验概率的分层。然后，使用层次化的BFS，首先在集群间找路径，然后在集群内的节点间找路径。

动态奖励。对于动态奖励，我们使用在线推断。对于每个模拟的参与者，每个试验的取样只进行10步，然后保存分层并添加有关修改后奖励的信息。接下来从保存的分层开始再次采样。在人为试验中，尽管在群体中奖励总是相等的，但是每个试验开始时奖励被重新随机分配新值的概率为0.2。

这种推理方法模拟了人类参与者在许多的试验过程中累积学习的方式。为了达到实验目的，假设人们一次只记住一个分层，而不会同时更新多个分层。对数后验被修改以判罚未连接集群，因为在这类推论下，此类集群更加普遍。

结果

人类组和两个模拟组都有95名参与者。相等数量的参与者选择通过节点5和通过节点7的路径为零假设代表，因为在没有任何其他信息的情况下，假设两条路径的长度相等，参与者选择其中一条的可能性相等。

人类行为与静态和动态奖励模型

如上表所示，人类试验和静态奖励建模的结果在α=0.05时具有统计学意义。此外，如下所示，人类试验的结果位于正态分布的第90个百分位数，以0.5为中心，给出零假设时的预期比例。

在该图中，我们包括由静态奖励模型(第一行)，具有在断开的组成部分之间形成簇的静态奖励模型(第二行)和动态奖励模型(第三行)标识的聚类。

模拟识别的集群

静态奖励。我们使用了1000次Metropolis-in-Gibbs采样来生成每个样本，每个样本的老化和滞后均为1。静态奖励下的模拟肯定会有利于通过节点5的路径达到统计上有意义的水平。此外，由于其目的是对人类行为进行建模，因此鉴于人类数据也具有统计学意义(0.0321<α= 0.05)，那么该结果是有意义的。