深度学习三大谜团:集成、知识蒸馏和自蒸馏
集成(Ensemble,又称模型平均)是一种「古老」而强大的方法。只需要对同一个训练数据集上,几个独立训练的的输出,简单地求平均,便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同,即使拥有相同的架构,集成方法依然能够将性能显著提升。
但是,为什么只是简单的「集成」,便能提升性能呢?
目前已有的理论解释大多只能适用于以下几种情况:
(1)boosting:模型之间的组合系数是训练出来的,而不能简单地取平均;
(2)Bootstrap aggregation:每个模型的训练数据集都不相同;
(3)每个模型的类型和体系架构都不相同;
(4)随机特征或决策树的集合。
但正如上面提到,在(1)模型系数只是简单的求平均;(2)训练数据集完全相同;(3)每个模型架构完全相同 下,集成的方法都能够做到性能提升。
论文链接:
https://arxiv.org/pdf/2012.09816.pdf
来自微软研究院与优化组的高级研究员朱泽园博士,以及卡内基梅隆大学机器学习系助理教授李远志针对这一现象,在发表的论文《在中理解集成,知识蒸馏和自蒸馏》(Towards Understanding Ensemble, Knowledge Distillation, and Self-Distillation in Deep Learning)中,提出了一个理论问题:
当我们简单地对几个独立训练的神经网络求平均值时,「集成」是如何改善深度学习的测试性能的?尤其是当所有神经网络具有相同的体系结构,使用相同的标准训练(即具有相同学习率和样本正则化的随机梯度下降),在相同数据集上进行训练时,即使所有单个模型都已经进行了100%训练准确性?随后,将集合的这种优越性能「蒸馏」到相同架构的单个神经网络,为何能够保持性能基本不变?
两位作者分别从理论和实验的角度给出了分析结果:
原因在于数据集中「多视图」(Multi-view)数据的存在。
朱泽园(Zeyuan Allen-Zhu)
朱泽园博士目前就职于微软总部 AI 研究院。南京外国语毕业,高一保送清华;2005、2006两年蝉联IOI推荐,2009年ACM总决赛亚军;清华毕业后在MIT读完硕博,后在普林斯顿进修博士后。
李远志(Yuanzhi Li)
另一位作者李远志,现任美国卡内基·梅隆大学(CMU)机器学习系助理教授,也是微软研究院的访问研究员。他于2010年到2014年在清华姚班进行本科学习,于2018年在普林斯顿大学获得博士学位,在斯坦福大学做了一年博士后之后,加入CMU担任助理教授。其研究方向主要为深度学习的基础理论与实践,凸优化算法与非凸优化算法设计,数据处理算法分析等。
01、深度学习的三大谜团
谜团 1:集成
观察结果显示,使用不同随机种子的学习网络
时间:2021-01-26 21:35 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]Facebook新AI模型SEER实现自监督学习,LeCun大赞最有
- [机器学习]一文详解深度学习最常用的 10 个激活函数
- [机器学习]增量学习(Incremental Learning)小综述
- [机器学习]盘点近期大热对比学习模型:MoCo/SimCLR/BYOL/SimSi
- [机器学习]深度学习中的3个秘密:集成、知识蒸馏和蒸馏
- [机器学习]【模型压缩】深度卷积网络的剪枝和加速
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]深度学习三大谜团:集成、知识蒸馏和自蒸馏
- [机器学习]论机器学习领域的内卷:不读PhD,我配不配找工
- [机器学习]芯片自主可控深度解析
相关推荐:
网友评论:
最新文章
热门文章