浅谈语音识别基础

　　承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》，主要参考了《解析深度学习:语音识别实践》以及其它相关博客和Wikipedia。

简介

　　其实自动语音识别（Automatic Speech Recognition，ASR）这个研究领域已经活跃了五十多年，但一直并没有真正成为一种重要的人机交流的形式，一个是缘于当时技术的落后，语音技术在大多数实际用户实际使用的场景下还不大可用；另一个是，很多情况下使用键盘、鼠标这样的形式比语音更有效、更准确、约束更小。

　　近年来，首先是，由于摩尔定律持续有效，今天可用的计算力仅仅相比十几年前就高了几个量级；其次是，借助越来越先进的互联网和云计算，我们得到了比先前多得多的数据资源。最后，移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行，在这些设备和系统上，鼠标和键盘不再那么便捷了，而对话交互会成为人机交互的未来。

　　语音技术同时可以促进人类之间的交流（HHC）以及人机交流（HMC），HHC比如，发送给他人的语音消息可以转化为文字方便阅读，采用语音输入也更为便捷，语音识别技术还可以用来将演讲和课程内容进行识别和索引；HMC比如，语音搜索、个人智能助理、声控游戏、智能家居等。

　　一个语音对话系统一般包含四个主要组成部分中的一个或多个：语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。如下图：

语音对话系统的组成

　　这里我们只关注语音识别系统，语音识别系统主要由四部分组成：信号处理和特征提取、声学模型（AM）、语言模型（LM）和解码搜索部分。如下图：

语音识别系统的架构

　　信号处理和特征提取是语音识别系统的第一部分，接受最原始的音频信号，通过消除噪声和信道失真对语音进行增强，将信号从时域转化到频域，并为后面的声学模型提取合适的有代表性的特征向量。

　　声学模型以特征提取部分生成的特征为输入，为可变长特征序列生成声学模型分数。

　　语言模型估计通过训练语料学习词与词之间的相互关系，来估计假设词序列的可能性，又叫语言模型分数。如果了解领域或任务相关的先验知识，语言模型的分数通常可以估计的更准确。

　　解码搜索综合声学模型分数与语言模型分数的结果，将总体输出分数最高的词序列当做识别结果。

　　或者看这张图：

　　语音识别就是一个先编码后解码的过程，信号处理和特征提取就是编码的过程，也即图中的Feature Extraction，特征抽取，由原始的语音得到语音向量。后面即是对语音向量的解码，而解码需要的Acoustic Model、Language Model就是上面提到过的声学模型和语言模型。声学模型这篇文章会着重讲，语言模型就是《浅谈自然语言处理基础》里面提过的N-gram那部分。