NIPS 2018 丨解读微软亚洲研究院 10 篇入选论文

这几天，比国庆火车票还一票难求的 NIPS 2018 出最终结果了！作为机器学习领域的顶级会议，今年 NIPS 之火爆达到了惊人的程度，投稿数量上升至史无前例的 4856 篇，比去年增加了约 50%，接受率保持着与去年持平的 20.8%，共接受论文 1011 篇，其中 168 篇 Spotlight（3.5%），30 篇 Oral（0.6%）。

今年，微软亚洲研究院共有 10 篇论文入选，研究主题涵盖词向量、机器翻译、神经网络优化、社群探索等等。我们在第一时间为大家梳理了这 10 篇论文的概要。关于论文的详细内容，我们也会在之后陆续推出。

Community Exploration: From Offline Optimization to Online Learning

Xiaowei Chen, Weiran Huang, John Lui, and Wei Chen

假象一个社会场景：作为刚入校的大学生，你想在新学校里通过参加学生活动，在最短的时间内认识尽可能多的朋友。但你参加活动的时间和精力有限，规模不同的社群活动使你结交朋友的几率不同，但你还不了解社群的规模，需要参加活动得到这些信息。怎么样才能最有效地安排参与活动的策略呢？

这个问题可以在在线广告分配、社会调查等很多问题中找到实际的应用场景。在我们的论文中，我们把这一问题抽象定义为社群探索（community exploration）问题：有 m 个社群，每次你访问一个社群，并在这次访问中以等概率随机遇到一个社群成员；如果你总共有 K 次访问机会，你该如何将这 K 次访问分配给 m 个社群，使得你在这 K 次访问中遇到的不同人的总人数最多？根据你是否预知每个社群的人数，该问题分为已知社群人数的离线优化问题和未知社群人数的在线学习问题。根据你是事先决定次访问的分配方案，还是每访问一次后根据反馈调整策略，问题又进一步分为非自适应性和自适应性的问题。我们对这些问题进行了系统性的研究，在离线优化方面，我们证明了贪心算法在非自适应性和自适应性情形下都能给出最优解。在在线学习方面，我们给出了基于置信上界（UCB）的在线学习算法，并给出了算法遗憾度（regret）的分析。

Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base

Daya Guo, Duyu Tang, Nan Duan, Ming Zhou, Jian Yin

对话中的多轮问答 (conversational question answering) 和语义分析 (semantic parsing) 是自然语言处理领域的两个核心问题，对语音助手、聊天机器人和搜索引擎都至关重要。在本文中，我们提出了基于知识图谱的对话式语义分析模型，该模型可以有效地处理多轮问答中的上下文指代和省略现象，合理利用对话历史理解当前问题的语义，并推断出其对应的逻辑表达 (logical form)。具体来说，输入用户当前的问题及对话历史，该模型会以包含多种逻辑操作(如查找、比较、计数、复制历史逻辑表达等) 的语法为基础，使用自顶向下的方式预测出当前问题的逻辑表达。我们在包含 20 万轮对话的 CSQA 数据集上进行实验，使用“问题 - 答案”对作为有指导信息训练模型，结果表明该模型的精度显著优于对比基线算法，并且可以有效地利用历史问题的语义解析结果推断当前问题的逻辑表达。

Frequency-Agnostic Word Representation

Chengyue Gong, Di He, Xu Tan, Tao Qin, Liwei Wang, Tie-Yan Liu

词向量（word embedding）是自然语言处理任务中不可或缺的组成部分。通常人们认为词向量包含丰富的语义信息，语义相似的词具有相似的词向量。然而我们在多种任务中发现事实并非如此。我们发现低频词的词向量编码了更多的词频信息而非语义信息：在词向量空间中，绝大部分低频词的周围聚集了与其含义截然不同的低频词，而那些真正与其语义相似的高频词与这些低频词的距离反而相差甚远。于是，这种编码了词频信息的词向量对于语义分析任务并不完美。

为了消除词表征中的词频信息，我们设计了一个基于对抗神经网络的训练算法。实验表明，基于该算法，新的模型在语义相似度、语言模型、机器翻译、文本分类的十项任务中都取得了更好结果，特别是在语言模型以及机器翻译的四项任务中达到世界最佳。

Frequency-Domain Dynamic Pruning for Convolutional Neural Networks

Zhenhua Liu, Jizheng Xu, Xiulian Peng, Ruiqin Xiong

与传统方法相比，卷积神经网络大幅提高了计算机视觉应用的性能，但需要极大的计算资源和存储要求。裁剪网络系数是减少存储、简化计算的一种有效方法。考虑到卷积神经网络中，卷积滤波器会有很大的空间冗余，我们提出在频率域进行网络系数的动态裁剪的方法，针对每次训练迭代和不同的频带，用动态的阈值来指导裁剪。实验结果表明，频域动态裁剪显著优于传统的空域裁剪方法。特别是对于 ResNet-110，在不牺牲网络性能甚至有所提高的情况下，我们的方法可以达到 8 倍的系数压缩和 8.9 倍的计算加速。

Layer-Wise Coordination between Encoder and Decoder for Neural Machine Translation

Tianyu He, Xu Tan, Yingce Xia, Di He, Tao Qin, Zhibo Chen, Tie-Yan Liu

神经机器翻译近年来取得的重要进展，依赖于模型结构的逐渐发展演化。在本文中，我们为神经机器翻译提出了逐层协调的概念，用来显式地协调编码器和解码器隐层向量的学习，这种协调是逐层从低级别的向量表示到高级别的向量表示学习。同时，我们通过共享编码器和解码器每层的模型参数，来约束并且协调训练过程。实验表明，结合目前最好的 Transformer 模型，我们的逐层协调机制在 3 个 IWSLT 和 2 个 WMT 翻译数据集上取得了较大的精度提升，在 WMT16 英语 - 罗马尼亚、WMT14 英语 - 德语翻译任务上超过了目前最好的 Transformer 基准模型。

**
**

Learning to Teach with Dynamic Loss Functions

Lijun Wu, Fei Tian, Yingce Xia, Yang Fan, Tao Qin, Jianhuang Lai, Tie-Yan Liu

在教学场景中，一个好的教师会全面考虑学生的学习状况，为学生设置良好的学习目标。对于人工智能而言，如果我们将机器学习模型看做学生，模型的损失函数（Loss Function）就扮演了上述的学习目标的角色。在经典的学习情境中，损失函数通常是预先给定、保持不变的。在这篇论文中，我们模仿人类老师的行为，用一个机器学习模型（即教师）自动、动态地为另一个机器学习模型（即学生）训练的不同阶段指定不同的损失函数，以提升机器学习（学生）的性能。我们设计了一种高效的基于梯度的优化算法来优化教师模型，避免了传统的基于强化学习算法的采样效率不高的缺陷。在图像分类和机器翻译任务上的大量实验验证了我们的算法的有效性。

Neural Architecture Optimization

Renqian Luo, Fei Tian, Tao Qin, Enhong Chen, Tie-Yan Liu

自动的神经网络结构搜索（Neural Architecture Search，NAS）已经展示了其强大的发现优良神经网络结构的能力。现有的 NAS 算法主要有两种：一种基于强化学习（Reinforcement Learning），另外一种基于演化计算（evolutionary computing）。两种都在离散的结构空间中进行搜索，因而不够高效。

因此我们提出了一种简单有效的、基于连续空间的优化算法来进行自动结构设计的方法，我们称之为神经网络结构优化（Neural Architecture Optimization, NAO）。NAO 的设计核心由三部分组成：

1）一个编码器，将离散的神经网络的结构编码成连续的嵌入向量（embedding vector）；

2）一个性能预测器，基于上述的嵌入向量进行神经网络性能的预测；

3）一个解码器，将嵌入向量解码回离散的网络结构。

通过编码器，我们可以在连续的向量空间中进行基于梯度的优化，从而得到一个新的、可能有更好的预测性能的嵌入向量。然后通过解码器，该嵌入向量被解码回一个具体的神经网络结构。实验结果证明 NAO 非常有效：在 CIFAR-10 上，NAO 得到的网络可以达到 2.07% 的分类错误率，在 PTB 上也可以得到 56.0 的困惑度（perplexity）。同时搜索出的结构可以泛化到新的数据集（例如 CIFAR-100 和 WikiText-2）, 同样有非常好的性能。我们更进一步，尝试将权重共享（Weight Sharing）的机制融合进 NAO，得到了非常好的搜索效率。

On the local Hessian of back propagation

Huishuai Zhang, Wei Chen, and Tie-Yan Liu

这篇论文中，我们研究训练深度神经网络的反向传播（Back Propagation，BP）算法有效性的问题。BP 是成功训练深度神经网络的基础，但 BP 有效性的决定因素并不明确，有时会出现梯度消失现象，难以有效地传播学习信号，而当 BP 在与一些“设计技巧”如正交初始化、批标准化和跳连接相结合时经常运行良好。因此本文尝试回答这个问题。

我们引入了“反向匹配传播”的概念，研究了反向匹配损失的 Hessian 矩阵（称之为局部 Hessian）并将其与 BP 的效率联系起来。事实证明，那些“设计技巧”是通过使局部 Hessian 的频谱更均匀来促进 BP 的效率。此外，我们提出可以利用局部 Hessian 的信息来平衡每个区块 / 层的训练速度，并设计新的训练算法。通过对局部 Hessian 的标量近似，我们提出了一种尺度修正的 SGD 算法。我们将其用于训练带有批归一化的神经网络，取得了比原始 SGD 更好的结果，从另一方面证实了局部 Hessian 矩阵的重要性。

Recurrent Transformer Networks for Semantic Correspondence

Seungryong Kim, Stephen Lin, Sangryul Jeon, Dongbo Min, Kwanghoon Sohn

这篇文章提出了一个循环转换网络（Recurrent Transformer Networks, RTNs）来获取语义相似的图像之间的对应关系。RTN 通过估计输入图像之间的空间变换关系，并借之生成对齐的卷积层激活值。通过直接估计图相对之间的变换，而非对每一张图像单独用空间转换网络（STNs）进行标准化，我们证明了该方法可以达到更高的精度。整个过程是以递归的方式去提升转换关系的估计和特征表示。此外，我们还提出了一种基于该分类损失函数的 RTN 弱监督训练技术。利用 RTN，我们在语义相关的几个标准上达到了目前最先进的性能。

Weakly Supervised Dense Event Captioning in Videos

Xuguang Duan, Wenbing Huang, Chuang Gan, Jingdong Wang,Wenwu Zhu, Junzhou Huang

视频稠密事件描述任务是指检测并描述视频中的所有事件。要解决这一问题，通常需要给出所有描述、标出与之对应的时间，建立这样的训练数据集成本很高。因此，本文提出了具有挑战性的新问题: 弱监督视频稠密事件描述，其优势在于，训练数据集只要求给出所有描述，不要求标注描述与时间的对应关系。本文给出了基于不动点的训练方法，自动挖掘出训练数据集中的描述与时间对应关系，学习出高效的自动检测并描述视频事件的模型，取得了非常好的效果。