CRF用过了，不妨再了解下更快的MEMM？

HMM、MEMM、CRF被称为是三大经典概率图模型，在之前的时代，它们被广泛用于各种序列标注相关的任务中。一个有趣的现象是，到了深度学习时代，HMM和MEMM似乎都“没落”了，舞台上就只留下CRF。相信做NLP的读者朋友们就算没亲自做过也会听说过BiLSTM+CRF做中文分词、命名实体识别等任务，却几乎没有听说过BiLSTM+HMM、BiLSTM+MEMM的，这是为什么呢？

今天就让我们来学习一番MEMM，并且通过与CRF的对比，来让我们更深刻地理解概率图模型的思想与设计。

模型推导

MEMM全称Maximum Entropy Markov Model，中文名可译为“较大熵马尔可夫模型”。不得不说，这个名字可能会吓退80%的初学者：较大熵还没搞懂，马尔可夫也不认识，这两个合起来怕不是天书？而事实上，不管是MEMM还是CRF，它们的模型都远比它们的名字来得简单，它们的概念和设计都非常朴素自然，并不难理解。

回顾CRF

作为对比，我们还是来回顾一下CRF。说是“回顾”，是因为笔者之前已经撰文介绍过CRF了，如果对CRF还不是很了解的读者，可以先去阅读旧作《简明条件随机场CRF介绍（附带纯Keras实现）》。简单起见，本文介绍的CRF和MEMM都是最简单的“线性链”版本。

如果仅局限于概念的话，那么CRF的介绍到此就结束了。总的来说，就是将目标序列当成一个整体，先给目标设计一个打分函数，然后对打分函数进行整体的softmax，这个建模理念跟普通的分类问题是一致的。CRF的困难之处在于代码实现，因为上式的分母项包含了所有路径的求和，这并不是一件容易的事情，但在概念理解上，笔者相信并没有什么特别困难之处。

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！