国内智能语音行业分析报告

伴随着人工智能行业的快速发展，中国在智能语音这个细分市场的发展速度也将会持续增长，但是目前国内在智能语音市场，技术已经相对成熟，且头部企业在行业的垄断力度较大。

一、智能语音简介

智能语音是人工智能技术的重要组成部分，包括语音识别、语义理解、自然语言处理、语音交互等。

当前，人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域，主要解决的是感知智能的需求，就是使得人工智能能够感知周围的世界，能够“听见”或者“看到”。

自然语言理解、智能会话、智能决策、人机交互等技术更加侧重的是认知智能的领域，解决“听懂”、“看懂”，并且根据学习到的知识对人类的要求或者周围的环境做出反应的能力。

在关键技术层中，语音识别、自然语义理解（Nature Language Process， NLP）、机器学习领域的关键技术在人工智能技术当中居于重要地位，是人机交互技术的基础。

（语音交互流程图）

二、智能语音市场概况

1. 中国人工智能市场规模持续增长，智能语音处于重要地位

通过上图我们不难发现，人工智能行业最近几年呈现出一个快速发展的态势，产业增长率平均在43%左右，属于一个快速发展的产业。2018年，人工智能市场规模达200亿元，如果按照之前的增速，预计到2019年年末，整个人工智能行业规模将达到近300亿元。

而在智能语言方面，当前人工智能产业中，智能语音是一个产业化程度相对成熟，产业规模较大的这么一个细分领域，从2011年整个市场规模只有6.3亿，到2017年整个智能语音市场规模已经超过百亿，整个行业正经历着高速的发展，预计未来几年，智能语音市场仍然会保持着较高速度快速发展。

2. 智能语音技术是人工智能产业链上的关键一环

上图是当前人工智能产业链的一个版图，从底层的基础设施到中间层的技术服务到最上面的行业应用，可以看到，智能语音技术在整个产业链当中，起到了一个承接的作用，将人工智能的技术底层产业化，并在智能家居、可穿戴设备、机器人等行业落地，是整个人工智能产业链中的关键一环。

3. 科技巨头纷纷从不同维度布局相关产业链

（1）国外科技巨头：通过并购等手段，夯实核心技术，开放应用平台，扩展以AI为核心的生态系统

谷歌：打造开发者生态链，推出Google Home，试图建立物联网时代安卓系统。

苹果：基于智能硬件定标准，做平台、获数据，重视物联网时代生态控制权。

（2）国内科技巨头：开放语音生态系统，以产业内合作的方式，将语音技术植入产品和或应用于相关业务场景，构建全产业生态链厂。

百度：瞄准人工智能战场，对外开放语音生态系统，对内在自身产品业务中实现AI First。

三、智能语音技术分析

1. 语音识别（ASR）

1）语音识别概述

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言，语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的高技术。

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

语音识别系统构建过程整体上包括两大部分：训练和识别。

训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；

而识别过程通常是在线完成的，对用户实时的语音进行自动识别。

识别过程通常又可以分为“前端”和“后端”两大模块：

“前端”模块主要的作用是进行端点检测（去除多余的静音和非说话声）、降噪、特征提取等;
“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别（又称“解码”），得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

目前，各语音识别方案提供方，包括讯飞、百度、云知声、思必驰等，都在提供包括麦克风阵列等硬件在内的整体解决方案，以软硬件结合的方式提高语音识别的精准度的问题。

2）语音识别技术原理

声音实际上是一种波，在开始语音识别之前，首先，需要对声音进行静音切除处理，以降低对后续步骤造成的干扰。

其次，要对声音进行分帧，把声音切成一小段一小段，每一段就是一帧，分帧操作一般不是简单的切开，而是使用移动窗函数来实现，而帧与帧之间一般是有交叠的，如下图所示：

图中，每帧的长度为25毫秒，每两帧之间有0.2S的交叠，我们一般称之为帧长2秒，帧移0.2秒。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有任何描述能力，因此必须将波形作变换，常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，这个向量包含了这帧语音的内容信息，我们把这个过程叫做声学的特征提取。

至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

再次，就是讲声音向量矩阵变成文本了，在这之前，有两个概念需要给大家先介绍下：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，而汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调。
状态：比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

了解了概念之后，我们就看一下语音识别是怎么把声音变成文本的，其实就和我们把大象塞进冰箱一样，也是分为三步：

把帧识别成状态（难点）；
把状态组合成音素；
把音素组合成单词。

如下图所示：

图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

2. 自然语义处理（NLP）

1）自然语义处理概要

语义识别是人工智能的重要方向之一，如果语音技术相当于人的嘴巴和耳朵，负责表达和获取，那语义技术则相当于人的大脑，负责思考和信息处理，解决的是“听得懂”的问题。语义识别最大的作用是改变人机交互模式，将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。

人机交互发展史

语义识别主要基于大数据和算法模型之上搭建，是自然语言处理 (NLP)技术的重要组成部分。NLP技术主要包括词法分析技术、句法分析技术、语义分析技术、语用分析技术以及语句分析技术等。NLP在实际应用中最大的困难还是语义的复杂性，随着大数据、芯片和算法模型等的发展进程加速，将为NLP带来长足的进步。

2）自然语义处理技术原理

在自然语义处理领域，也在通过深度学习的工具提升自然语义处理的准确度。目前常用的自然语义处理领域的技术包括了循环神经网络（Recurrent Neural Network）、卷积神经网络（Convolutional Neural Network）、递归神经网络（Recursive Neural Network）的原理，它们是语句语义学习的强有力工具。

普通神经网络可以完成词性标记、词语切分、实体命名识别、目的提取等一般的语义分析功能。

循环神经网络（RNN）是把一句话看成单词的序列，每个单词由一个向量表示，每一个位置上有一个中间表示，由向量组成，表示从句首到这个位置的语义。

这里假设，每一个位置的中间表示由当前位置的单词向量以及前一个位置的中间表示决定，通过一个神经网络模型化。RNN把句末的中间表示当作整个句子的语义表示。RNN加入长短期记忆（Long Short Term Memory，LSTM）机制， RNN可以处理远距离依存关系，能够更好地表示整句的语义。

卷积神经网络（CNN）是通过对句子进行扫描，抽取特征，选择特征，最后组合成句子的语义表示。

首先从左到右用一个滑动窗口对句子进行扫描，每个滑动窗口内有多个单词，每个单词由一个向量表示。在滑动窗口内，通过卷积（convolution）操作，进行特征抽取。这样，在各个位置上得到一系列特征。之后再通过最大池化（max pooling）操作，对特征进行选择。

重复以上操作多次，得到多个向量表示，将这些向量连接起来得到整个句子的语义表示。同一卷积层内参数是共享的，也就是同一层的卷积操作是相同的，这也就保证了在局部领域进行相同的特征抽取。

ReNN是假设对语句进行句法分析，得到句法树。句法树的每个节点上有一个向量中间表示。父节点的表示由其子节点的表示决定，通过神经网络模型化，而根节点的表示就是整个句子的语义表示。句法树上的中间表示可以在句法分析的过程中得到，比如在最大间隔分析（max margin parsing）。

除了上述这些神经网络的算法之外，人类不断在尝试着用新的算法来试图能够为人工智能提供更加准确理解自然语言的能力。随着神经网络和深度学习的发展，自然语义处理已经取得了长足的发展，但是，由于人类语言的复杂性，对于通用人工智能阶段需要达到的自然语言理解，也存在较长的距离。

3. 语音合成（TTS）

1）语音合成概述

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音并朗读出来，相当于给机器装上了一个嘴巴，它涉及到声学、语言学、数字信号处理、计算机科学等多个学科技术，是人工智能信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息。

语音合成和语音识别技术是实现人机语音通话所必需的两项关键技术，使机器具有类似于人一样的说话能力。

2）语音合成技术处理方式

文本处理：

这一步做的事情是把文本转化成音素序列，并标出每个音素的起止时间、频率变化等信息。

作为一个预处理步骤，它的重要性经常被忽视，但是它涉及到很多值得研究的问题，比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定，等等。

音素：音素(phone)，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类。
音节：音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。如”普通话”，由三个音节组成，可以分析成”p, u, t, o, ng, h, u, a”八个音素。

语音合成：

狭义上这一步专指根据音素序列（以及标注好的起止时间、频率变化等信息）生成语音，广义上它也可以包括文本处理的步骤。

这一步主要有三类方法：

拼接法，即从事先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等；为了追求合成语音的连贯性，也常常用使用双音子（从一个音素的中央到下一个音素的中央）作为单位。拼接法合成的语音质量较高，但它需要录制大量语音以保证覆盖率。
参数法，即根据统计模型来产生每时每刻的语音参数（包括基频、共振峰频率等），然后把这些参数转化为波形。参数法也需要事先录制语音进行训练，但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些。
声道模拟法。参数法利用的参数是语音信号的性质，它并不关注语音的产生过程。与此相反，声道模拟法则是建立声道的物理模型，通过这个物理模型产生波形。这种方法的理论看起来很优美，但由于语音的产生过程实在是太复杂，所以实用价值并不高。

三、智能语音主要公司介绍

1. 图灵机器人

1）公司简介

图灵机器人是一家个性化智能机器人平台，旗下有人工智能机器人操作系统Turing OS，用户可以在微博、微信、QQ机器人、语音客服、智能硬件等多个场景搭建属于自己的个性化智能机器人，截止2016，公司估值已经超过10亿人民币。

2）代表性产品介绍

乐迪：

乐迪是著名动画作品《超级飞侠》里的灵魂人物，基于图灵机器人人工智能操作系统Turing OS，让乐迪从荧屏走进消费者现实生活。

吉米猫：

吉米猫是一款手机宠物类应用游戏，从功能上来说很像是汤姆猫的升级版，但与汤姆猫不同的是吉米猫接入了图灵机器人的Chat bot接口，赋予了吉米猫聊天调侃、百科问答等语音对话能力，闲暇时还可以给你讲个段子、说个故事。

2. 思必驰

1）公司简介

思必驰是一家智能语音技术解决方案提供商，致力于提供自然语言人机交互解决方案，应用于智能车载、智能家居和智能机器人领域，并且拥有语音识别、语音合成、语义对话及语义唤醒等技术，截止2016年，思必驰的估值已经超过20亿人民币。

2）代表性产品介绍

智能车载解决方案：提供一体化解决方案，适用于智能后视镜、智能车机、便携式导航仪、HUD等，全称语音操作。

智能家居解决方案：软硬件一体化解决方案，为智能家居产品提供声源定位、个性唤醒、语音识别、语义理解、对话交互等功能。

3. 云知声

1）公司简介

云知声成立于2012年，是一家智能语音识别技术的高新技术企业，目前集AI芯、AIUI、AI Service三大解决方案支撑云知声核心技术的落地，已经在家居、汽车、医疗和教育等领域有广泛应用，截止2018年，公司估值已经超过10.7亿美金。

2）代表性产品介绍

智能家居方案-UniHome：

AI芯作为智能语音解决方案芯片，用以解决不同形态智能终端感知和部分计算问题，AI芯通过多种芯片方案，合理组合不同硬件平台，安装不同系统下的AIUI版本，提供语音交互、IO控制、互联内容的能力，满足不同价位不同场景下的智能硬件交互需求。

智能车载方案-UniCar：

云端芯一体化，方案包括拾音降噪，语音交互，云端计算和内容服务一揽子解决方案，满足用户导航，电话，娱乐，咨询，社交5大场景的功能诉求。

智慧医疗方案：云知声提供医疗垂直领域录入软硬件一体的解决方案，基于医疗人工智能技术和大数据分析进行持续探索，实现智能语音交互的知识问答和病历查询，进行健康风险预测和患者分群分析。

4. 出门问问

1）公司简介

出门问问是市场上一家拥有自主语音识别、语义分析、垂直搜索技术的人工智能公司；自成立以来，一直努力将人工智能技术落地到消费产品，定义下一代人机交互的方式，截止2017年，公司估值超过10亿美金。

2）代表性产品介绍

以TicWatch Pro为例：

五、智能语音市场总结

伴随着人工智能行业的快速发展，中国在智能语音这个细分市场的发展速度也将会持续增长，但是目前国内在智能语音市场，技术已经相对成熟，且头部企业在行业的垄断力度较大。

目前，中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割，截止到2018年，中国智能语音市场，科大讯飞市场占有率排名第一，市占率达到44.2%；其次为百度，市场占有率为27.8%；排名第三的是的苹果，市占率为6.9%，排名前三的品牌在我国智能语音市场占比近八成，留给初创企业在这个市场的空间以及机会并不多。

未来随着智能语音技术的逐渐成熟，智能语音技术在教育领域会发挥出巨大的作用，比如在口语教学、考试测评、模拟练习等环节，能够代替现在很多老师的工作，大大降低人工成本。