行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 人工智能 正文

AI芯片架构竞相走向边缘

  各大公司竞相将各种芯片架构作为将AI推向边缘的首选武器。
 
  随着机器学习应用开端呈现在终端设备和物联网网络边缘,完成AI的加速器可能看起来更像FPGA和SoC模组,而不是英特尔和英伟达目前的数据中心绑定芯片(data-center-bound chip)。
 
  人工智能和机器学习需求功用强大的芯片来从大数据集中计算答案。大多数AI芯片——包括锻炼和推理——都是为数据中心开发的。但是,这种趋向很快就会改动。其中很大一局部处置将发作在边缘,即网络的边缘或传感器和传感器阵列的内部或左近。
 
  简直能够肯定,锻炼将留在云端,由于关于这一大块资源的最有效产品是英伟达的GPU,它主导着这一局部市场。虽然数据中心可能会承当包含大量数据集的锻炼局部,但推理可能最终会交给边缘。市场预测似乎同意这一点。
 
  Tractica公司研讨主管、边缘设备AI报告的作者Aditya Kaul说:“推理硬件市场是一个新市场,但变化疾速。数据中心有一些时机,并将继续存在。基于云的数据中心AI芯片市场将继续增长。但是推理处于边缘,这里开端变得引人瞩目。至少有70家专业人工智能公司正在研讨某种与芯片相关的人工智能技术。”
 
  Kaul说:“在边缘,智能手机、机器人、无人机、相机、平安摄像头号一切需求AI处置的设备都将成为将来的热点。”
 
  到2025年,基于云的AI芯片组将带来146亿美圆的收入,而基于边缘的AI芯片组将带来516亿美圆的收入,是数据中心的3.5倍,边缘AI芯片组主要由手机、智能音箱、无人机、AR/VR耳机,以及其他一切需求AI处置的设备组成。
 
  固然英伟达和英特尔如今可能主导基于数据中心的机器学习应用的市场,谁将占领远离数据中心的边缘计算AI市场?那些芯片会是什么样子?
 
  AI边缘芯片需求做什么
 
  依据Semico Research公司ASIC和SoC剖析师Rich Wawrzyniak所言,边缘计算、物联网和消费终端设备将需求以相对较低的功耗、价钱和较小芯片尺寸停止高性能推理处置。这很艰难,特别是由于边缘设备处置的大多数数据是庞大的视频和音频数据。
 
  Wawrzyniak说:“数据很多,但假如你有监控摄像头,它必需可以实时辨认出坏人,而不是把一张照片发送到云端,然后等着看有没有人认出他。”
 
  将ML级别的智能添加到边缘设备的一些愿望来自于需求将这些设备上的数据失密,或者降低将数据发送到云端的本钱。但是,大局部需求来自那些希望设备位于边缘计算设备或控制在客户手中的客户,他们不希望设备简单地搜集数据并定期将其发送到云端,以便他们能够直接与公司本人的数据或其他客户和路人停止实时交互。
 
  NXP半导体AI技术主管Markus Levy表示:“客户认识到,他们不想把大量处置工作转移到云端,因而他们以为边缘是真正的目的。既然你能够在边缘完成AI,你就能够把物联网变成真正具有才能的东西。我们看到消费者物联网、工业物联网以及嵌入式的增长十分快,这是我们最大的增长范畴。”
 
  据IDC剖析师Shane Rau称,今年承受IDC调查的商业技术客户表示,他们肯定会把机器学习转移到边缘设备上,主要是汽车、智能家居、视频监控摄像头和智能手机。该公司的客户调查将这四种设备列为ML的候选设备。
 
  边缘AI架构开展趋向
 
  边缘计算的需求范围可能包括数亿计的工业和消费设备,因而任何单一的架构都不太可能满足一切这些需求。
 
  NXP的Levy表示:在微控制器和相对低端的芯片上运转推理模型是能够的,但大多数机器学习功用需求从基于FPGA、ASIC和其他SoC配置的一长串可选CPU附加项,以及GPU和CPU的组合,有时还需求由Google的TPU等特殊用处的ASIC来加强。
 
  大局部的加强都是以加速器的方式呈现的。这些FPGA、SoC、ASIC和其他专用芯片旨在协助资源受限的基于x86的设备经过一层接一层的剖析规范处置大量图像或音频数据,因而app能够正确地计算和加权每个数据的值。
 
  英特尔和英伟达曾经向边缘AI市场发起冲击。Kaul说,像英伟达的Jetson这样的产品并不能令人信服。Jetson是一个GPU模块平台,具有7.5W的功率预算,只要英伟达更典型产品的70W功率的一小局部,但关于普通不超越5W的边缘应用来说还是太高了。
 
  Levy说:“有很多IP公司正在为神经网络寻求加速,因而有足够的选择使加速器开端成为边缘设备推理的需求。”
 
  但是,要想在潜在的亿万个设备上添加ML加速和支持,将需求更多的可定制性、更低的本钱,以及更特地针对资源受限设备上ML应用需求的标准——这意味着,假如要获得胜利,整个市场将需求更好的处置器。
 
  神经推理需求数万亿次乘法累加运算,由于模型从其公式矩阵的一层提取数据,虽然每一层可能需求不同的数据大小,而且其中一些设备可能在输入设置为8位整数而不是16位整数时运转得更快。
 
  Flex Logix结合开创人兼首席执行官Geoff Tate表示:“为了在数据中心取得良好的吞吐量,大多数架构依赖于必需运用相同的权重集来创立批处置的数十或数百个任务。假如你有28张图片,你加载图片,加载第一阶段的权重,对第一阶段做数学运算,保管结果,然后加载第二阶段的权重。经过在每一层上完成一切28个批次,你能够将权重加载时间缩减到一次只加载一个的1/28。假如加载和管理权重是你不擅长的,那么你能够经过批处置来处理它。这就是为什么你会看到基准测试显现第28批的运转效率低于第1批。假如加载权重的速度很慢,则难以扩展。但在数据中心之外的任何中央都必需这样做。假如你有监控摄像头,则必需在图像传入时对其停止处置,以便批大小一直等于1。假如你在丈量性能,则数据中心外的批大小一直等于1。”
 
  Flex Logix开发的神经网络引擎能够防止批处置问题。Tate说:“由于我们加载权重的速度十分快,所以我们不需求停止批处置,我们的性能在第1批和第28批时相同,这在边缘应用中十分重要。”
 
  推理硬件方面的两项新工作
 
  Xilinx试图应用其在FPGA和系统级设计方面的经历,推出新的产品系列和道路图,以满足尽可能多的边缘/设备市场的需求。
 
  Xilinx在去年春天讨论了这个想法,但直到10月才正式宣布,该公司描绘了一个自顺应计算加速平台,该平台“应用CPU、GPU和FPGA的力气来加速一切应用”。
 
  Xilinx的演示描绘了一个普遍的产品线、运用案例列表和有关其AI引擎中心的细致信息,其目的是提供比传统办法的单位芯片面积高出3~8倍的性能,并提供高性能DSP才能。
 
  与此同时,Flex Logix创立了一个运用低DRAM带宽的可重构神经加速器。芯片的面积和功率的目的规格将在明年上半年完成,并在下半年流片。推理引擎将充任CPU,而不只仅是一个更大,更漂亮的加速器。它提供了模块化、可扩展的架构,旨在经过减少挪动数据的需求以及经过改良数据和矩阵计算的加载方式来减少瓶颈,从而降低挪动数据的时间和精神本钱。
 
  该芯片将DRAM专用于单个处置器块,而不是将其作为一个大内存池停止管理。DRAM不能同时将数据馈送到芯片的多个局部。Tate说:“将DRAM作为流入一个处置器块的大内存池处置,这是范诺依曼架构的典型特征,但它不会成为神经网络的胜利架构。”
 
微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部