178页，四年图神经网络研究精华，图卷积网络作

对于普通人来说，将自己的学位论文公布到社交媒体可能需要点勇气。但如果实力够硬，多少人检阅都是不怕的。最近，图卷积网络（GCN）的作者 Thomas Kipf 就公开了自己的博士论文，主题是「使用图结构表示的」，涵盖从图到结构发现等一系列深度学习热门话题，是他过去几年图神经网络方向研究的深度汇总。

在深度学习领域，图神经网络早已成为热门话题。去年年底，有人统计了 2019 年到 2020 年各大顶会提交论文关键词的数据。结果显示，「graph neural network”」的增长速度位列榜首，成为上升最快的话题。

在图神经网络出现之前，尽管深度学习已经在欧几里得数据中取得了很大的成功，但从非欧几里得域生成的数据已经得到了更广泛的应用，它们也需要有效的分析。例如，在电子商务领域，基于图的学习系统能够利用用户和产品之间的交互来实现高度精准的推荐；在化学领域，分子被建模为图，新药研发需要测定其生物活性等等。

广阔的应用前景吸引了大批研究者投身图神经网络的研究，图卷积网络就是其中的一个方向。

对于这个方向的研究者来说，Thomas Kipf 的名字应该并不陌生，他 2016 年发表的论文《Semi-Supervised Classification with Graph Convolutional Networks》被引量已超过 3400 次，是这一方向的奠基之作。这篇论文也被 2017 年的 ICLR 大会接收。

除此之外，图神经网络的另一重要方向——图自编码器也是 Kipf 和其导师 Max Welling 于 2016 年提出的。

虽然几年前就做出了各种开创性的工作，但 Thomas Kipf 今年才刚刚博士毕业。他的研究方向是学习结构化数据和结构化表示 / 计算，包括推理、（多智能体）强化学习和结构化深度生成模型。今年 1 月份，他从阿姆斯特丹大学专业拿到了博士学位。

与机器学习界的很多大牛一样，Kipf 本身并不是计算机专业。他本科是学物理的，在马普所接触到神经科学相关研究，之后进入机器学习领域。博士毕业后，Kipf 加入了谷歌，担任研究科学家。

Kipf 此次公布的博士论文有 178 页，是他博士四年在图神经网络领域研究的一次深度汇总，不仅讨论了图卷积网络，还有图自编码器、结构化世界模型等，值得抽出时间仔细阅读。

论文链接：https://pure.uva.nl/ws/files/46900201/Thesis.pdf

大神的博士论文

在这篇论文中，Thomas Kipf 提出了一种用深度学习处理结构化数据的新方法。该方法主要基于以图的形式结构化神经网络模型的表示和计算，从而提高模型在学习具备显式和隐式模块结构的数据时的泛化能力。

该论文主要分为两个部分，分别介绍如何处理显式结构（第 3-5 章）和隐式结构（第 6-8 章）。

这篇论文的主要贡献如下：

提出了图卷积网络（GCN），用于执行图结构数据中节点的半监督分类任务；

提出图自编码器（GAE），用于图结构数据中的无监督学习和链接预测；

提出关系 GCN（R-GCN），将 GCN 模型扩展到具有多个边类型的有向关系图；

提出神经关系推断（neural relational inference, NRI）模型；

提出一个针对序列行为数据的结构发现模型：组合式模仿学习和执行（CompILE）；

提出对比训练的结构化世界模型（contrastively-trained structured world model, C-SWM），用于在无监督的情况下从原始像素观察中学习环境的对象分解模型。

接下来，我们来看这篇博士论文各章节的具体内容。

背景

该论文前两章是「引言」和「背景」，介绍了相关的背景知识等内容。

在这一部分中，Thomas Kipf 列举了该论文试图解决的 5 个研究问题：

问题 1：针对图结构数据集上的大规模节点分类任务，我们能否开发出深度神经网络模型并提供高效实现？

问题 2：图神经网络能否用于链路预测和无监督节点表示学习？

问题 3：深度神经网络能否推断实体间的隐藏关系和交互，如物理系统中的力？

问题 4：如何改进神经网络模型，使之能够推断序列数据中的事件结构和 latent program description？

问题 5：深度神经网络能否通过与环境的交互，学会发现和构建对象、关系和动作效果的有效表示？

带着这些问题，我们来看 Thomas Kipf 的具体成果。

图卷积网络

Thomas Kipf 提出图卷积网络（GCN），用于执行图结构数据中节点的半监督分类任务。GCN 是图神经网络的一种形式，在图中执行参数化的消息传递操作，被建模为谱图卷积的一阶近似值。截至 GCN 发表时，它在多个无向图数据集的节点级分类任务中实现了 SOTA 性能。

多层 GCN 执行半监督分类任务图示。

使用图自编码器（GAE）执行链接预测

图自编码器（GAE）可用于图结构数据中的无监督学习和链接预测，该方法由 Kipf 和其导师 Max Welling 于 2016 年提出。GAE 的主要组件是：基于图神经网络的编码器，基于成对评分函数重建图链接的解码器。

Kipf 进一步提出了一个模型变体：使用变分推断训练得到的概率生成模型——变分 GAE（variational GAE）。GAE 和变分 GAE 非常适合没有节点标签情况下的图表示学习。

使用图卷积网络处理关系数据

Thomas Kipf 提出关系 GCN（R-GCN），将 GCN 模型扩展到具有多个边类型的有向关系图。R-GCN 非常适用于关系数据的建模。该论文第五章还展示了 R-GCN 在知识库中执行半监督实体分类的示例。

R-GCN 模型中单个节点更新的计算图。

神经关系推断（NRI）

得益于交互系统中发现的潜在关系结构，Kipf 提出了神经关系推断（neural relational inference, NRI）模型。NRI 将图神经网络与基于图边缘类型的概率潜变量模型结合起来。此外，Kipf 还使用 NRI 建模相互作用的动力系统，如物理学中的多粒子系统。

针对序列行为数据的结构发现模型

Kipf 等人提出了一个针对序列行为数据的结构发现模型——组合式模仿学习和执行（compositional imitation learning and execution, CompILE）。CompILE 利用一种新型可微分序列分割机制，来发现和自编码模仿学习环境下有意义的行为子序列或子程序。此外，该模型还可以执行和重新组合潜码，来生成新的行为。

CompILE 模型图示。

C-SWM

Kipf 等人提出对比训练的结构化世界模型（contrastively-trained structured world model, C-SWM），用于在无监督的情况下从原始像素观察中学习环境的对象分解模型。

C-SWM 利用图神经网络以图的形式构建环境表示，其中节点表示对象，边表示在动作影响下的成对关系或相互作用。

此外，C-SWM 利用无像素损失的对比学习进行训练，适用于具备组合结构的环境学习模型。

C-SWM 模型架构，由基于 CNN 的对象提取器、基于 MLP 的对象编码器、基于 GNN 的关系转换模型和对象分解对比损失四部分组成。

以下为这篇博士论文的目录：

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！