一定要GPT3吗？不，BERT的MLM模型也能小样本学习

大家都知道现在GPT3风头正盛，然而，到处都是GPT3、GPT3地推，读者是否记得GPT3的论文的名字呢？事实上，GPT3的论文叫做《Language Models are Few-Shot Learners》，标题里边已经没有G、P、T几个单词了，只不过它跟开始的GPT是一脉相承的，因此还是以GPT称呼它。顾名思义，GPT3主打的是Few-Shot Learning，也就是小样本学习。此外，GPT3的另一个特点就是大，较大的版本多达1750亿参数，是BERT Base的一千多倍。

正因如此，前些天Arxiv上的一篇论文《It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners》便引起了笔者的注意，意译过来就是“谁说一定要大的？小模型也可以做小样本学习”。显然，这标题对标的就是GPT3，于是笔者饶有兴趣地点进去看看是谁这么有勇气挑战GPT3，又是怎样的小模型能挑战GPT3？经过阅读，原来作者提出通过适当的构造，用BERT的MLM模型也可以做小样本学习，看完之后颇有一种“原来还可以这样做”的恍然大悟感～在此与大家分享一下。

冉冉升起的MLM

MLM，全称“Masked Language Model”，可以翻译为“掩码语言模型”，实际上就是一个完形填空任务，随机Mask掉文本中的某些字词，然后要模型去预测被Mask的字词，示意图如下：

其中被Mask掉的部分，可以是直接随机选择的Token，也可以是随机选择连续的能组成一整个词的Token，后者称为WWM（Whole Word Masking）。

开始，MLM仅被视为BERT的一个预训练任务，训练完了就可以扔掉的那种，因此有一些开源的模型干脆没保留MLM部分的权重，比如brightmart版和clue版的RoBERTa，而哈工大开源的RoBERTa-wwm-ext-large则不知道出于什么原因随机初始化了MLM部分的权重，因此如果要复现本文后面的结果，这些版本是不可取的。

然而，随着研究的深入，研究人员发现不止BERT的Encoder很有用，预训练用的MLM本身也很有用。比如论文《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》指出MLM可以作为一般的生成模型用，论文《Spelling Error Correction with Soft-Masked BERT》则将MLM用于文本纠错，笔者之前在《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》的实验也表明MLM的预训练权重也可以当作UniLM来用做Seq2Seq任务，还有《无监督分词和句法分析！原来BERT还可以这样用》一文将MLM的思想用于无监督分词和句法分析了。可以说MLM已经是大放异彩了。

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！