线性Attention的探索：Attention必须有个Softmax吗？

前几天笔者读到了论文 Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention [1] ，了解到了线性化 Attention （Linear Attention）这个探索点，继而阅读了一些相关文献，有一些不错的收获，最后将自己对线性化 Attention 的理解汇总在此文中。

相关解读可以参考笔者的一文读懂「Attention is All You Need」| 附代码实现，以及它的一些改进工作也可以参考突破瓶颈，打造更强大的 Transformer [3]、Google 新作 Synthesizer：我们还不够了解自注意力，这里就不多深入介绍了。

1.1 摘掉Softmax

读者也许想不到，制约 Attention 性能的关键因素，其实是定义里边的 Softmax！事实上，简单地推导一下就可以得到这个结论。

1.2 一般的定义

问题是，直接去掉 Softmax 还能算是 Attention 吗？它还能有标准的 Attention 的效果吗？为了回答这个问题，我们先将 Scaled-Dot Attention 的定义（1）等价地改写为（本文的向量都是列向量）。

这种一般形式的 Attention 在 CV 中也被称为 Non-Local 网络，来自文章 Non-local Neural Networks [4]。

值得指出的是，下面介绍的这几种 Linear Attention，前两种只做了 CV 的实验，第三种是笔者自己构思的，所以都还没有在 NLP 任务上做过什么实验，各位做模型改进的 NLPer 们就有实验方向了。

这方面的思考可以参考论文 Transformer dissection: An unified understanding for transformer’s attention via the lens of kernel [6]，此处不做过多延伸。

2.3 自己的构思

在这里，笔者给出自己的一种构思。这个构思的出发点不再是式（4），而是源于我们对原始定义（2）的近似。由泰勒展开我们有：

这不同于形式（4），但理论上它应该是最接近原始的 Scaled-Dot Attention 了。

相关工作

通过修改 Attention 的形式来降低它的计算复杂度，相关的工作有很多，这里简要列举一些。

但是很明显，这种思路有两个不足之处：

如何选择要保留的注意力区域，这是人工主观决定的，带有很大的不智能性；

它需要从编程上进行特定的设计优化，才能得到一个高效的实现，所以它不容易推广。

某种意义上来说，Reformer 也是稀疏 Attention 的一种，只不过它的稀疏 pattern 不是事先指定的，而是通过 LSH（Locality Sensitive Hashing）技术（近似地）快速地找到较大的若干个 Attention 值，然后只去计算那若干个值。

此外，Reformer 通过构造可逆形式的 FFN（Feedforward Network）替换掉原来的 FFN，然后重新设计反向传播过程，从而降低了显存占用量。

所以，相比前述稀疏 Attention，Reformer 解决了它的第一个缺点，但是依然有第二个缺点：实现起来复杂度高。要实现 LSH 形式的 Attention 比标准的 Attention 复杂多了，对可逆网络重写反向传播过程对普通读者来说更是遥不可及。

但是，笔者认为“对于超长序列 m 可以保持不变”这个结论是值得质疑的，原论文中对于长序列作者只做了 MLM 任务，而很明显 MLM 并不那么需要长程依赖，所以这个实验没什么说服力。因此，Linformer 是不是真的 Linear，还有待商榷。

近来也有类似的工作发出来，比如IBM的PoWER-BERT: Accelerating BERT Inference via Progressive Word-vector Elimination [8] 和 Google 的 Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing [9] 。

除了 Pooling 之外，其实还有其他的下采样技术，比如可以通过 stride > 1 的一维卷积来实现，基于这个思路，或许我们可以把 FFN 里边的 Position-Wise 全连接换成 stride > 1 的一维卷积？总之这方面应该也能玩出很多花样来，不过跟 Linformer 一样，这样糅合之后做自回归生成就很难了。

参考链接

[1] https://arxiv.org/abs/2006.16236

[2] https://arxiv.org/abs/1706.03762

[3] https://kexue.fm/archives/7325

[4] https://kexue.fm/archives/1711.07971

[5] https://arxiv.org/abs/2006.16236

[6] https://arxiv.org/abs/1908.11775

[7] https://arxiv.org/abs/1812.01243

[8] https://arxiv.org/abs/2001.08950

[9] https://arxiv.org/abs/2006.03236

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！