原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:主页 > 数据挖掘 > 正文

Google第四代TPU 细节曝光!MLPerf榜单决战英伟达

来源: 时间:2020-07-31
2018年,谷歌在其年度 I/O 开发者大会上宣布了第三代产品,在今天上午刚刚揭开了第四代TPU产品的神秘面纱,该产品目前尚处于研发阶段。
 
MLPerf 发布的一套性能基准指标显示,第四代 TPU集群大幅超越了第三代 TPU的能力,甚至在目标检测、图像分类、自然语言处理、机器翻译和推荐基准等方面,部分能力超越了英伟达发布的 A100。
MLPerf是致力于硬件、软件和服务的训练和推理性能测试的组织,在AI业界颇受芯片巨头的关注。MLPerf组织囊括了该行业中的70多个知名企业和机构,包括英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软、斯坦福大学在内。
 

 

谷歌第四代 TPU 的平均性能是上一代2.7 倍
没有最强,只有更强!
 
谷歌称其第四代 TPU 提供的每秒浮点运算次数是第三代 TPU 的两倍多,第三代 TPU 的每秒矩阵乘法相当于1万亿次浮点运算。
 
在内存带宽方面,也表现出了「显著」的增长,芯片从内存中获取数据进行处理的速度、执行专门计算的能力都有所提高。谷歌表示,总体而言,第四代 TPU 的性能在去年的 MLPerf 基准测试中比第三代 TPU 的性能平均提高了2.7倍。
 
TPU是谷歌在2015年推出的专用芯片,为优化自身的TensorFlow机器学习框架而打造,跟GPU不同,谷歌TPU是一种ASIC芯片方案,属于专门定制的芯片,研发成本极高。
 
谷歌的处理器是专门为加速人工智能而开发的应用集成电路(asic)。它们是液体冷却的,可以插入服务器机架; 可以提供高达100petaflops 的计算能力; 还可以支持谷歌产品,如谷歌搜索、谷歌照片、谷歌翻译、谷歌助理、谷歌邮箱和谷歌云计算人工智能API。
 
谷歌人工智能软件工程师 Naveen Kumar 在一篇博客文章中写道: 「这表明我们致力于推进机器学习研究和工程的规模化,并通过谷歌开源软件、谷歌产品和谷歌云将这些进步传递给用户」。
 
「机器学习模型的快速训练对于研究和工程团队来说至关重要,意味着团队可以提供以前无法实现的新产品、服务和研究突破。」
 
ImageNet图像分类任务,256个TPU1.82分钟完成训练
今年的 MLPerf 结果显示,谷歌的第四代TPU几乎无可挑剔。在一个图像分类任务中,用 ImageNet 数据集训练ResNet-50 v1.5达到75.90% 的准确率,256个第四代 TPUs 可以在1.82分钟内完成。
 
这个速度是什么概念,几乎相当于768个英伟达 A100显卡和192 个AMD Epyc 7742 CPU 内核(1.06分钟)和512个华为 ai 优化的 ascen910芯片与128个英特尔至强铂金8168内核(1.56分钟)的速度。
 
第四代TPU的训练时间为0.48分钟,打败了第三代TPU,但这或许只是因为第三代是4096个TPU串联的原因。
 
第四代 TPU 在运行 Mask R-CNN 模型时获得了最强的效果,Mask R-CNN 模型是用于自动驾驶等领域的图像分割 AI,其训练速度是第三代TPU的 3.7 倍。

 

目标检测任务四代TPU略微领先
在 MLPerf 的「重量级」目标检测类别中,第四代 TPU略微领先。一个参考模型(Mask R-CNN)用 COCO 语料库在256个第四代TPU上进行9.95分钟的训练,接近512个第三代TPU的时间(8.13分钟)。
 
在WMT 英德翻译数据集上训练 Transformer 模型,256个第四代 TPU 在0.78分钟内完成。4,096个第三代 TPU要发花费 0.35分钟,480个 Nvidia A100(外加256个 AMD Epyc 7742 CPU 内核)要花费0.62分钟。
 
第四代TPU在维基百科等大型语料库上训练 BERT 模型时也表现良好。使用256个第四代 TPU的训练时间为1.82分钟,仅比使用4096个第三代 TPUs 的0.39分钟稍慢。同时,使用 Nvidia 硬件0.81分钟就能完成训练,但需要2048块 A100卡和512块 AMD Epyc 7742 CPU 内核。
 
的 MLPerf ,包括新的和修改过的基准测试--和强化学习,对于 TPU来说是喜忧参半。
 
由64个第四代 TPU 组成的集群在推荐任务中表现良好,花了1.12分钟在 Criteo AI 实验室的 1TB 点击率日志数据集训练了一个模型,而八块 Nvidia A100卡和两块 AMD Epyc 7742 CPU 核心用了3.33分钟才完成训练。
 
但英伟达在强化学习方向上取得了领先,用256块 A100卡和64块 AMD Epyc 7742 CPU 核心,用了29.7分钟,成功训练了一款简化版围棋模型,获胜率达到50% ,而256个第四代 TPU一共花了150.95分钟。
 
需要注意的一点是,Nvidia 的硬件基准是 Facebook 的 PyTorch 框架和 Nvidia 自己的框架,而不是 Google 的 TensorFlow,第三代和第四代的 TPU 都使用了 TensorFlow、 JAX 和 Lingvo。虽然这可能对结果有些影响,但在基准测试中还是能看出第四代 TPU 有着明显优势。
 
参考链接:
https://venturebeat.com/2020/07/29/google-claims-its-new-tpus-are-2-7-times-faster-than-the-previous-generation/
 
声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!
 
 

人工智能交流群扫码邀请
人工智能交流群扫码邀请


转发量:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
数据标注服务

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭