Google第四代TPU 细节曝光！MLPerf榜单决战英伟达

2018年，谷歌在其年度 I/O 开发者大会上宣布了第三代产品，在今天上午刚刚揭开了第四代TPU产品的神秘面纱，该产品目前尚处于研发阶段。

MLPerf 发布的一套性能基准指标显示，第四代 TPU集群大幅超越了第三代 TPU的能力，甚至在目标检测、图像分类、自然语言处理、机器翻译和推荐基准等方面，部分能力超越了英伟达发布的 A100。

MLPerf是致力于硬件、软件和服务的训练和推理性能测试的组织，在AI业界颇受芯片巨头的关注。MLPerf组织囊括了该行业中的70多个知名企业和机构，包括英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软、斯坦福大学在内。

谷歌第四代 TPU 的平均性能是上一代2.7 倍

没有最强，只有更强！

谷歌称其第四代 TPU 提供的每秒浮点运算次数是第三代 TPU 的两倍多，第三代 TPU 的每秒矩阵乘法相当于1万亿次浮点运算。

在内存带宽方面，也表现出了「显著」的增长，芯片从内存中获取数据进行处理的速度、执行专门计算的能力都有所提高。谷歌表示，总体而言，第四代 TPU 的性能在去年的 MLPerf 基准测试中比第三代 TPU 的性能平均提高了2.7倍。

TPU是谷歌在2015年推出的专用芯片，为优化自身的TensorFlow机器学习框架而打造，跟GPU不同，谷歌TPU是一种ASIC芯片方案，属于专门定制的芯片，研发成本极高。

谷歌的处理器是专门为加速人工智能而开发的应用集成电路(asic)。它们是液体冷却的，可以插入服务器机架; 可以提供高达100petaflops 的计算能力; 还可以支持谷歌产品，如谷歌搜索、谷歌照片、谷歌翻译、谷歌助理、谷歌邮箱和谷歌云计算人工智能API。

谷歌人工智能软件工程师 Naveen Kumar 在一篇博客文章中写道: 「这表明我们致力于推进机器学习研究和工程的规模化，并通过谷歌开源软件、谷歌产品和谷歌云将这些进步传递给用户」。

「机器学习模型的快速训练对于研究和工程团队来说至关重要，意味着团队可以提供以前无法实现的新产品、服务和研究突破。」

ImageNet图像分类任务，256个TPU1.82分钟完成训练

今年的 MLPerf 结果显示，谷歌的第四代TPU几乎无可挑剔。在一个图像分类任务中，用 ImageNet 数据集训练ResNet-50 v1.5达到75.90% 的准确率，256个第四代 TPUs 可以在1.82分钟内完成。

这个速度是什么概念，几乎相当于768个英伟达 A100显卡和192 个AMD Epyc 7742 CPU 内核(1.06分钟)和512个华为 ai 优化的 ascen910芯片与128个英特尔至强铂金8168内核(1.56分钟)的速度。

第四代TPU的训练时间为0.48分钟，打败了第三代TPU，但这或许只是因为第三代是4096个TPU串联的原因。

第四代 TPU 在运行 Mask R-CNN 模型时获得了最强的效果，Mask R-CNN 模型是用于自动驾驶等领域的图像分割 AI，其训练速度是第三代TPU的 3.7 倍。

目标检测任务四代TPU略微领先

在 MLPerf 的「重量级」目标检测类别中，第四代 TPU略微领先。一个参考模型(Mask R-CNN)用 COCO 语料库在256个第四代TPU上进行9.95分钟的训练，接近512个第三代TPU的时间(8.13分钟)。

在WMT 英德翻译数据集上训练 Transformer 模型，256个第四代 TPU 在0.78分钟内完成。4,096个第三代 TPU要发花费 0.35分钟，480个 Nvidia A100(外加256个 AMD Epyc 7742 CPU 内核)要花费0.62分钟。

第四代TPU在维基百科等大型语料库上训练 BERT 模型时也表现良好。使用256个第四代 TPU的训练时间为1.82分钟，仅比使用4096个第三代 TPUs 的0.39分钟稍慢。同时，使用 Nvidia 硬件0.81分钟就能完成训练，但需要2048块 A100卡和512块 AMD Epyc 7742 CPU 内核。

的 MLPerf ，包括新的和修改过的基准测试--和强化学习，对于 TPU来说是喜忧参半。

由64个第四代 TPU 组成的集群在推荐任务中表现良好，花了1.12分钟在 Criteo AI 实验室的 1TB 点击率日志数据集训练了一个模型，而八块 Nvidia A100卡和两块 AMD Epyc 7742 CPU 核心用了3.33分钟才完成训练。

但英伟达在强化学习方向上取得了领先，用256块 A100卡和64块 AMD Epyc 7742 CPU 核心，用了29.7分钟，成功训练了一款简化版围棋模型，获胜率达到50% ，而256个第四代 TPU一共花了150.95分钟。

需要注意的一点是，Nvidia 的硬件基准是 Facebook 的 PyTorch 框架和 Nvidia 自己的框架，而不是 Google 的 TensorFlow，第三代和第四代的 TPU 都使用了 TensorFlow、 JAX 和 Lingvo。虽然这可能对结果有些影响，但在基准测试中还是能看出第四代 TPU 有着明显优势。

参考链接：

https://venturebeat.com/2020/07/29/google-claims-its-new-tpus-are-2-7-times-faster-than-the-previous-generation/

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！