最易懂的AI芯片报告！人才技术趋势都在这里

　　2010 年以来，由于大数据产业的发展，数据量呈现爆炸性增长态势，而传统的计算架构又无法支撑深度学习的大规模并行计算需求，于是研究界对 AI 芯片进行了新一轮的技术研发与应用研究。 AI 芯片是人工智能时代的技术核心之一，决定了平台的基础架构和发展生态。

　　我们推荐清华大学的报告《人工智能芯片研究报告》，全面讲解人工智能芯片，系统梳理人工智能芯片的发展现状及趋势。以下为智能内参整理呈现的干货：

　　一、基本知识及现状

　　从广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片，现阶段，这些人工智能算法一般以深度学习算法为主，也可以包括其它机器学习算法。人工智能与深度学习的关系如图所示。

　　深度学习算法，通常是基于接收到的连续数值，通过学习处理，并输出连续数值的过程，实质上并不能完全模仿生物大脑的运作机制。基于这一现实，研究界还提出了 SNN（Spiking Neural Network，脉冲神经网络）模型。作为第三代神经网络模型， SNN 更贴近生物神经网络——除了神经元和突触模型更贴近生物神经元与突触之外， SNN 还将时域信息引入了计算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、 Intel 的 Loihi 以及国内的清华大学天机芯为代表。

　　1、AI 芯片发展历程

　　从图灵的论文《计算机器与智能》和图灵测试，到最初级的神经元模拟单元——感知机，再到现在多达上百层的深度神经网络，人类对人工智能的探索从来就没有停止过。上世纪八十年代，多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花。反向传播的主要创新在于能将信息输出和目标输出之间的误差通过多层网络往前一级迭代反馈，将最终的输出收敛到某一个目标范围之内。 1989 年贝尔实验室成功利用反向传播算法，在多层神经网络开发了一个手写邮编识别器。 1998 年 Yann LeCun 和 Yoshua Bengio 发表了手写识别神经网络和反向传播优化相关的论文《Gradient-based learning applied to documentrecognition》，开创了卷积神经网络的时代。

　　此后，人工智能陷入了长时间的发展沉寂阶段，直到 1997年 IBM的深蓝战胜国际象棋大师和 2011年 IBM的沃森智能系统在 Jeopardy节目中胜出，人工智能才又一次为人们所关注。 2016 年 Alpha Go 击败韩国围棋九段职业选手，则标志着人工智能的又一波高潮。从基础算法、底层硬件、工具框架到实际应用场景，现阶段的人工智能领域已经全面开花。

　　作为人工智能核心的底层硬件 AI 芯片，也同样经历了多次的起伏和波折，总体看来，AI 芯片的发展前后经历了四次大的变化，其发展历程如图所示。

　　（1） 2007 年以前， AI 芯片产业一直没有发展成为成熟的产业；同时由于当时算法、数据量等因素，这个阶段 AI 芯片并没有特别强烈的市场需求，通用的 CPU 芯片即可满足应用需要。

　　（2）随着高清视频、 VR、 AR游戏等行业的发展， GPU产品取得快速的突破；同时人们发现 GPU 的并行计算特性恰好适应人工智能算法及大数据并行计算的需求，如 GPU 比之前传统的 CPU在深度学习算法的运算上可以提高几十倍的效率，因此开始尝试使用 GPU进行人工智能计算。

　　（3）进入 2010 年后，云计算广泛推广，人工智能的研究人员可以通过云计算借助大量 CPU 和 GPU 进行混合运算，进一步推进了 AI 芯片的深入应用，从而催生了各类 AI 芯片的研发与应用。

　　（4）人工智能对于计算能力的要求不断快速地提升，进入 2015 年后， GPU 性能功耗比不高的特点使其在工作适用场合受到多种限制，业界开始研发针对人工智能的专用芯片，以期通过更好的硬件和芯片架构，在计算效率、能耗比等性能上得到进一步提升。

　　2、我国 AI 芯片发展情况

　　目前，我国的人工智能芯片行业发展尚处于起步阶段。长期以来，中国在 CPU、 GPU、DSP 处理器设计上一直处于追赶地位，绝大部分芯片设计企业依靠国外的 IP 核设计芯片，在自主创新上受到了极大的限制。然而，人工智能的兴起，无疑为中国在处理器领域实现弯道超车提供了绝佳的机遇。人工智能领域的应用目前还处于面向行业应用阶段，生态上尚未形成垄断，国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑线上，因此，基于新兴技术和应用市场，中国在建立人工智能生态圈方面将大有可为。

　　由于我国特殊的环境和市场，国内 AI 芯片的发展目前呈现出百花齐放、百家争鸣的态势， AI 芯片的应用领域也遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域，催生了大量的人工智能芯片创业公司，如地平线、深鉴科技、中科寒武纪等。

　　尽管如此，国内公司却并未如国外大公司一样形成市场规模，反而出现各自为政的散裂发展现状。除了新兴创业公司，国内研究机构如北京大学、清华大学、中国科学院等在AI 芯片领域都有深入研究；而其他公司如百度和比特大陆等， 2017 年也有一些成果发布。可以预见，未来谁先在人工智能领域掌握了生态系统，谁就掌握住了这个产业的主动权。

　　3、AI学者概况

　　?基于来自清华大学AMiner 人才库数据，全球人工智能芯片领域学者分布如图所示，从图中可以看到，人工智能芯片领域的学者主要分布在北美洲，其次是欧洲。中国对人工智能芯片的研究紧跟其后，南美洲、非洲和大洋洲人才相对比较匮乏。

　　按国家进行统计来看美国是人工智能芯片领域科技发展的核心。英国的人数紧排在美国之后。其他的专家主要分布在中国、德国、加拿大、意大利和日本。

　　对全球人工智能芯片领域最具影响力的 1000 人的迁徙路径进行了统计分析，得出下图所示的各国人才逆顺差对比。

　　可以看出，各国人才的流失和引进是相对比较均衡的，其中美国为人才流动大国，人才输入和输出幅度都大幅度领先。英国、中国、德国和瑞士等国次于美国，但各国之间人才流动相差并不明显。

　　二、AI 芯片的分类及技术

　　人工智能芯片目前有两种发展路径：一种是延续传统计算架构，加速硬件计算能力，主要以 3 种类型的芯片为代表，即 GPU、 FPGA、 ASIC，但 CPU依旧发挥着不可替代的作用；另一种是颠覆经典的冯·诺依曼计算架构，采用类脑神经结构来提升计算能力，以 IBM TrueNorth 芯片为代表。

　　1、传统的 CPU

　　计算机工业从 1960 年代早期开始使用 CPU 这个术语。迄今为止， CPU 从形态、设计到实现都已发生了巨大的变化，但是其基本工作原理却一直没有大的改变。通常 CPU 由控制器和运算器这两个主要部件组成。传统的 CPU 内部结构图如图 3 所示，从图中我们可以看到：实质上仅单独的 ALU 模块（逻辑运算单元）是用来完成数据计算的，其他各个模块的存在都是为了保证指令能够一条接一条的有序执行。这种通用性结构对于传统的编程计算模式非常适合，同时可以通过提升 CPU 主频（提升单位时间内执行指令的条数）来提升计算速度。但对于深度学习中的并不需要太多的程序指令、却需要海量数据运算的计算需求，这种结构就显得有些力不从心。尤其是在功耗限制下，无法通过无限制的提升 CPU 和内存的工作频率来加快指令执行速度，这种情况导致 CPU 系统的发展遇到不可逾越的瓶颈。

　　2、并行加速计算的 GPU

　　GPU 作为最早从事并行加速计算的处理器，相比 CPU 速度快，同时比其他加速器芯片编程灵活简单。

　　传统的 CPU 之所以不适合人工智能算法的执行，主要原因在于其计算指令遵循串行执行的方式，没能发挥出芯片的全部潜力。与之不同的是， GPU 具有高并行结构，在处理图形数据和复杂算法方面拥有比 CPU 更高的效率。对比 GPU 和 CPU 在结构上的差异， CPU大部分面积为控制器和寄存器，而 GPU 拥有更ALU(ARITHMETIC LOGIC UNIT，逻辑运算单元)用于数据处理，这样的结构适合对密集型数据进行并行处理， CPU 与 GPU 的结构对比如图所示。程序在 GPU系统上的运行速度相较于单核 CPU往往提升几十倍乃至上千倍。随着英伟达、 AMD 等公司不断推进其对 GPU 大规模并行架构的支持，面向通用计算的 GPU(即GPGPU， GENERAL PURPOSE GPU，通用计算图形处理器)已成为加速可并行应用程序的重要手段。

　　GPU 的发展历程可分为 3 个阶段，发展历程如图所示：

　　第一代 GPU(1999 年以前 ) ，部分功能从 CPU 分离，实现硬件加速，以GE(GEOMETRY ENGINE)为代表，只能起到 3D 图像处理的加速作用，不具有软件编程特性。

　　第二代 GPU(1999-2005 年)，实现进一步的硬件加速和有限的编程性。 1999 年，英伟达发布了“专为执行复杂的数学和几何计算的” GeForce256 图像处理芯片，将更多的晶体管用作执行单元，而不是像 CPU 那样用作复杂的控制单元和缓存，将 T&L(TRANSFORM AND LIGHTING)等功能从 CPU 分离出来，实现了快速变换，这成为 GPU 真正出现的标志。之后几年， GPU 技术快速发展，运算速度迅速超过 CPU。 2001 年英伟达和 ATI 分别推出的GEFORCE3 和 RADEON 8500，图形硬件的流水线被定义为流处理器，出现了顶点级可编程性，同时像素级也具有有限的编程性，但 GPU 的整体编程性仍然比较有限。

　　第三代 GPU(2006年以后)， GPU实现方便的编程环境创建，可以直接编写程序。 2006年英伟达与 ATI分别推出了 CUDA(Compute United Device Architecture，计算统一设备架构)编程环境和 CTM(CLOSE TO THE METAL)编程环境，使得 GPU 打破图形语言的局限成为真正的并行数据处理超级加速器。

　　2008 年，苹果公司提出一个通用的并行计算编程平台 OPENCL（OPEN COMPUTING LANGUAGE，开放运算语言），与 CUDA 绑定在英伟达的显卡上不同，OPENCL 和具体的计算设备无关。

　　目前， GPU 已经发展到较为成熟的阶段。谷歌、 FACEBOOK、微软、 TWITTER 和百度等公司都在使用 GPU 分析图片、视频和音频文件，以改进搜索和图像标签等应用功能。此外，很多汽车生产商也在使用 GPU 芯片发展无人驾驶。不仅如此， GPU 也被应用于VR/AR 相关的产业。

　　但是 GPU也有一定的局限性。深度学习算法分为训练和推断两部分， GPU 平台在算法训练上非常高效。但在推断中对于单项输入进行处理的时候，并行计算的优势不能完全发挥出来。

　　3、半定制化的 FPGA

　　FPGA 是在 PAL、 GAL、 CPLD 等可编程器件基础上进一步发展的产物。用户可以通过烧入 FPGA 配置文件来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的，比如用户可以把 FPGA 配置成一个微控制器 MCU，使用完毕后可以编辑配置文件把同一个FPGA 配置成一个音频编解码器。因此，它既解决了定制电路灵活性的不足，又克服了原有可编程器件门电路数有限的缺点。

　　FPGA 可同时进行数据并行和任务并行计算，在处理特定应用时有更加明显的效率提升。对于某个特定运算，通用 CPU 可能需要多个时钟周期；而 FPGA 可以通过编程重组电路，直接生成专用电路，仅消耗少量甚至一次时钟周期就可完成运算。

　　此外，由于 FPGA的灵活性，很多使用通用处理器或 ASIC难以实现的底层硬件控制操作技术，利用 FPGA 可以很方便的实现。这个特性为算法的功能实现和优化留出了更大空间。同时 FPGA 一次性成本(光刻掩模制作成本)远低于 ASIC，在芯片需求还未成规模、深度学习算法暂未稳定，需要不断迭代改进的情况下，利用 FPGA 芯片具备可重构的特性来实现半定制的人工智能芯片是最佳选择之一。

　　功耗方面，从体系结构而言， FPGA 也具有天生的优势。传统的冯氏结构中，执行单元（如 CPU 核）执行任意指令，都需要有指令存储器、译码器、各种指令的运算器及分支跳转处理逻辑参与运行，而 FPGA 每个逻辑单元的功能在重编程（即烧入）时就已经确定，不需要指令，无需共享内存，从而可以极大的降低单位执行的功耗，提高整体的能耗比。

　　由于 FPGA 具备灵活快速的特点，因此在众多领域都有替代 ASIC 的趋势。 FPGA 在人工智能领域的应用如图所示。

　　4、全定制化的 ASIC

　　目前以深度学习为代表的人工智能计算需求，主要采用 GPU、 FPGA 等已有的适合并行计算的通用芯片来实现加速。在产业应用没有大规模兴起之时，使用这类已有的通用芯片可以避免专门研发定制芯片（ASIC）的高投入和高风险。但是，由于这类通用芯片设计初衷并非专门针对深度学习，因而天然存在性能、功耗等方面的局限性。随着人工智能应用规模的扩大，这类问题日益突显。

　　GPU 作为图像处理器，设计初衷是为了应对图像处理中的大规模并行计算。因此，在应用于深度学习算法时，有三个方面的局限性：第一，应用过程中无法充分发挥并行计算优势。深度学习包含训练和推断两个计算环节， GPU 在深度学习算法训练上非常高效，但对于单一输入进行推断的场合，并行度的优势不能完全发挥。第二，无法灵活配置硬件结构。 GPU 采用 SIMT 计算模式，硬件结构相对固定。目前深度学习算法还未完全稳定，若深度学习算法发生大的变化， GPU 无法像 FPGA 一样可以灵活的配制硬件结构。第三，运行深度学习算法能效低于 FPGA。

　　尽管 FPGA 倍受看好，甚至新一代百度大脑也是基于 FPGA 平台研发，但其毕竟不是专门为了适用深度学习算法而研发，实际应用中也存在诸多局限：第一，基本单元的计算能力有限。为了实现可重构特性， FPGA 内部有大量极细粒度的基本单元，但是每个单元的计算能力(主要依靠 LUT 查找表)都远远低于 CPU 和 GPU 中的 ALU 模块；第二、计算资源占比相对较低。为实现可重构特性， FPGA 内部大量资源被用于可配置的片上路由与连线；第三，速度和功耗相对专用定制芯片(ASIC)仍然存在不小差距；第四， FPGA 价格较为昂贵，在规模放量的情况下单块 FPGA 的成本要远高于专用定制芯片。

　　因此，随着人工智能算法和应用技术的日益发展，以及人工智能专用芯片 ASIC产业环境的逐渐成熟，全定制化人工智能 ASIC也逐步体现出自身的优势，从事此类芯片研发与应用的国内外比较有代表性的公司如图所示。

　　深度学习算法稳定后， AI 芯片可采用 ASIC 设计方法进行全定制，使性能、功耗和面积等指标面向深度学习算法做到最优。

　　5、类脑芯片

　　类脑芯片不采用经典的冯·诺依曼架构，而是基于神经形态架构设计，以 IBM Truenorth为代表。 IBM 研究人员将存储单元作为突触、计算单元作为神经元、传输单元作为轴突搭建了神经芯片的原型。目前， Truenorth 用三星 28nm 功耗工艺技术，由 54 亿个晶体管组成的芯片构成的片上网络有 4096 个神经突触核心，实时作业功耗仅为 70mW。由于神经突触要求权重可变且要有记忆功能， IBM 采用与 CMOS 工艺兼容的相变非挥发存储器（PCM）的技术实验性的实现了新型突触，加快了商业化进程。

　　三、AI芯片产业及趋势

　　1、AI芯片应用领域

　　随着人工智能芯片的持续发展，应用领域会随时间推移而不断向多维方向发展，这里我们选择目前发展比较集中的几个行业做相关的介绍。

　　（1）智能手机

　　2017 年 9 月，华为在德国柏林消费电子展发布了麒麟 970 芯片，该芯片搭载了寒武纪的 NPU，成为“全球首款智能手机移动端 AI 芯片” ； 2017 年 10 月中旬 Mate10 系列新品（该系列手机的处理器为麒麟 970）上市。搭载了 NPU 的华为 Mate10 系列智能手机具备了较强的深度学习、本地端推断能力，让各类基于深度神经网络的摄影、图像处理应用能够为用户提供更加完美的体验。

　　而苹果发布以 iPhone X 为代表的手机及它们内置的 A11 Bionic 芯片。A11 Bionic 中自主研发的双核架构 Neural Engine（神经网络处理引擎），它每秒处理相应神经网络计算需求的次数可达 6000 亿次。这个 Neural Engine 的出现，让 A11 Bionic 成为一块真正的 AI 芯片。 A11 Bionic 大大提升了 iPhone X 在拍照方面的使用体验，并提供了一些富有创意的新用法。

　　（2）ADAS（高级辅助驾驶系统）

　　ADAS 是最吸引大众眼球的人工智能应用之一，它需要处理海量的由激光雷达、毫米波雷达、摄像头等传感器采集的实时数据。相对于传统的车辆控制方法，智能控制方法主要体现在对控制对象模型的运用和综合信息学习运用上，包括神经网络控制和深度学习方法等，得益于 AI 芯片的飞速发展，这些算法已逐步在车辆控制中得到应用。

　　（3）CV（计算机视觉（Computer Vision）设备

　　需要使用计算机视觉技术的设备，如智能摄像头、无人机、行车记录仪、人脸识别迎宾机器人以及智能手写板等设备，往往都具有本地端推断的需要，如果仅能在联网下工作，无疑将带来糟糕的体验。而计算机视觉技术目前看来将会成为人工智能应用的沃土之一，计算机视觉芯片将拥有广阔的市场前景。

　　（4） VR 设备

　　VR 设备芯片的代表为 HPU 芯片，是微软为自身 VR 设备 Hololens 研发定制的。这颗由台积电代工的芯片能同时处理来自 5个摄像头、 1个深度传感器以及运动传感器的数据，并具备计算机视觉的矩阵运算和 CNN 运算的加速功能。这使得 VR 设备可重建高质量的人像 3D 影像，并实时传送到任何地方。

　　（5）语音交互设备

　　语音交互设备芯片方面，国内有启英泰伦以及云知声两家公司，其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案，实现设备的语音离线识别。稳定的识别能力为语音技术的落地提供了可能；与此同时，语音交互的核心环节也取得重大突破。语音识别环节突破了单点能力，从远场识别，到语音分析和语义理解有了重大突破，呈现出一种整体的交互方案。

　　（6）机器人

　　无论是家居机器人还是商用服务机器人均需要专用软件+芯片的人工智能解决方案，这方面典型公司有由前百度深度学习实验室负责人余凯创办的地平线机器人，当然地平线机器人除此之外，还提供 ADAS、智能家居等其他嵌入式人工智能解决方案。

　　2、AI芯片国内外代表性企业

　　本篇将介绍目前人工智能芯片技术领域的国内外代表性企业。文中排名不分先后。人工智能芯片技术领域的国内代表性企业包括中科寒武纪、中星微、地平线机器人、深鉴科技、灵汐科技、启英泰伦、百度、华为等，国外包括英伟达、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、苹果、三星等。

　　3、技术趋势

　　目前主流 AI 芯片的核心主要是利用 MAC（Multiplier and Accumulation，乘加计算）加速阵列来实现对 CNN（卷积神经网络）中最主要的卷积运算的加速。这一代 AI 芯片主要有如下 3 个方面的问题。

　　（1）深度学习计算所需数据量巨大，造成内存带宽成为整个系统的瓶颈，即所谓“memory wall” 问题。

　　（2）与第一个问题相关，内存大量访问和 MAC阵列的大量运算，造成 AI芯片整体功耗的增加。

　　（3）深度学习对算力要求很高，要提升算力，最好的方法是做硬件加速，但是同时深度学习算法的发展也是日新月异，新的算法可能在已经固化的硬件加速器上无法得到很好的支持，即性能和灵活度之间的平衡问题。

　　因此，可以预见下一代 AI 芯片将有如下的五个发展趋势。

　　（1）更高效的大卷积解构/复用

　　在标准 SIMD 的基础上， CNN 由于其特殊的复用机制，可以进一步减少总线上的数据通信。而复用这一概念，在超大型神经网络中就显得格外重要。如何合理地分解、映射这些超大卷积到有效的硬件上成为了一个值得研究的方向，

　　（2）更低的 Inference 计算/存储位宽

　　AI 芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从 32 位浮点到 16 位浮点/定点、 8 位定点，甚至是 4 位定点。在理论计算领域， 2 位甚至 1 位参数位宽，都已经逐渐进入实践领域。

　　（3）更多样的存储器定制设计

　　当计算部件不再成为神经网络加速器的设计瓶颈时，如何减少存储器的访问延时将会成为下一个研究方向。通常，离计算越近的存储器速度越快，每字节的成本也越高，同时容量也越受限，因此新型的存储结构也将应运而生。

　　（4）更稀疏的大规模向量实现

　　神经网络虽然大，但是，实际上有很多以零为输入的情况，此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结，在最后一级输出了触发信号。在 Activation层后对下一次计算的必要性进行预先判断，如果发现这是一个稀疏节点，则触发 SKIP 信号，避免乘法运算的功耗，以达到减少无用功耗的目的。

　　（5）计算和存储一体化

　　计算和存储一体化（process-in-memory）技术，其要点是通过使用新型非易失性存储（如 ReRAM）器件，在存储阵列里面加上神经网络计算功能，从而省去数据搬移操作，即实现了计算存储一体化的神经网络处理，在功耗性能方面可以获得显着提升。