浅谈语音识别基础
承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》,主要参考了《解析深度学习:语音识别实践》以及其它相关博客和Wikipedia。
简介
其实自动语音识别(Automatic Speech Recognition,ASR)这个研究领域已经活跃了五十多年,但一直并没有真正成为一种重要的人机交流的形式,一个是缘于当时技术的落后,语音技术在大多数实际用户实际使用的场景下还不大可用;另一个是,很多情况下使用键盘、鼠标这样的形式比语音更有效、更准确、约束更小。
近年来,首先是,由于摩尔定律持续有效,今天可用的计算力仅仅相比十几年前就高了几个量级;其次是,借助越来越先进的互联网和云计算,我们得到了比先前多得多的数据资源。最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行,在这些设备和系统上,鼠标和键盘不再那么便捷了,而对话交互会成为人机交互的未来。
语音技术同时可以促进人类之间的交流(HHC)以及人机交流(HMC),HHC比如,发送给他人的语音消息可以转化为文字方便阅读,采用语音输入也更为便捷,语音识别技术还可以用来将演讲和课程内容进行识别和索引;HMC比如,语音搜索、个人智能助理、声控游戏、智能家居等。
一个语音对话系统一般包含四个主要组成部分中的一个或多个:语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。如下图:
这里我们只关注语音识别系统,语音识别系统主要由四部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。如下图:
信号处理和特征提取是语音识别系统的第一部分,接受最原始的音频信号,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。
声学模型以特征提取部分生成的特征为输入,为可变长特征序列生成声学模型分数。
语言模型估计通过训练语料学习词与词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数。如果了解领域或任务相关的先验知识,语言模型的分数通常可以估计的更准确。
解码搜索综合声学模型分数与语言模型分数的结果,将总体输出分数最高的词序列当做识别结果。
或者看这张图:
语音识别就是一个先编码后解码的过程,信号处理和特征提取就是编码的过程,也即图中的Feature Extraction,特征抽取,由原始的语音得到语音向量。后面即是对语音向量的解码,而解码需要的Acoustic Model、Language Model就是上面提到过的声学模型和语言模型。声学模型这篇文章会着重讲,语言模型就是《浅谈自然语言处理基础》里面提过的N-gram那部分。
时间:2018-08-05 01:18 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: