AAAI21最佳论文Informer:效果远超Transformer的长序列
Informer:最强最快的序列预测神器
01简介
在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间较精确的长程相关性耦合。最近的研究表明,Transformer具有提高预测能力的潜力。
然而,Transformer存在一些严重的问题,如:
二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。
02背景
Intuition:Transformer是否可以提高计算、内存和架构效率,以及保持更高的预测能力?
原始Transformer的问题
本文的重大贡献
本文提出的方案同时解决了上面的三个问题,我们研究了在self-attention机制中的稀疏性问题,本文的贡献有如下几点:
03方法
现有时序方案预测可以被大致分为两类:
高效的Self-Attention机制
04方法Encoder + Decoder
1. Encoder: Allowing for processing longer sequential inputs under the memory usage limitation
2. Decoder: Generating long sequential outputs through one forward procedure
Loss Function
此处选用MSE 损失函数作为最终的Loss。
05实验
1. 实验效果
从上表中,我们发现:
所提出的模型Informer极大地提高了所有数据集的推理效果(最后一列的获胜计数),并且在不断增长的预测范围内,它们的预测误差平稳而缓慢地上升。
query sparsity假设在很多数据集上是成立的;
Informer在很多数据集上远好于LSTM和ERNN
2. 参数敏感性
3. 解耦实验
从上表中我们发现,
ProbSparse self-attention机制的效果:ProbSparse self-attention的效果更好,而且可以节省很多内存消耗;
self-attention distilling:是值得使用的,尤其是对长序列进行预测的时候;
generative stype decoderL:它证明了decoder能够捕获任意输出之间的长依赖关系,避免了误差的积累;
4. 计算高效性
在训练阶段,在基于Transformer的方法中,Informer获得了较佳的训练效率。
在测试阶段,我们的方法比其他生成式decoder方法要快得多。
06小结
本文研究了长序列时间序列预测问题,提出了长序列预测的Informer方法。具体地:
设计了ProbSparse self-attention和提取操作来处理vanilla Transformer中二次时间复杂度和二次内存使用的挑战。
generative decoder缓解了传统编解码结构的局限性。
通过对真实数据的实验,验证了Informer对提高预测能力的有效性
参考文献
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting:https://arxiv.org/pdf/2012.07436.pdf
声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!
时间:2021-02-09 23:25 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]AAAI21最佳论文Informer:效果远超Transformer的长序列
- [机器学习]牛津CS博士小姐姐134页毕业论文探索神经网络内部
- [机器学习]揭秘Facebook搜索中的语义检索技术
- [机器学习]PyTorch称霸顶会:CVPR论文占比是TensorFlow 4 倍
- [机器学习]CVPR 2020 论文大盘点-实例分割篇
- [机器学习]PyTorch称霸顶会:CVPR论文占比是TensorFlow 4 倍
- [机器学习]28篇论文、6 大主题带你一览 CVPR 2020 研究趋势
- [机器学习]CVPR 2020 论文大盘点-实例分割篇
- [机器学习]CVPR 2020 论文大盘点-目标检测篇
- [机器学习]推荐系统论文回顾:神经协同过滤理解与实现
相关推荐:
网友评论:
最新文章
热门文章