人工智能可以从高性能计算学习的七个经验和教训

有效的IT组织可以寻求更广泛使用人工智能的方式，通过从高性能计算(HPC)中吸取的经验和教训，将其重点放在系统级思考上。

每个组织都将使用人工智能技术，或者应该使用。人工智能对企业利润和竞争优势的潜在积极影响是不容忽视的。

如今，高性能计算(HPC)中心是支持大规模高性能应用(包括大规模人工智能)的专家。无论企业已经在实施人工智能，还是处于探索/思考的早期阶段，都会从高效的高性能计算(HPC)企业中学习一些经验教训。

Digital Trends 公司2019年进行的调查发现，自去年以来，大型企业表示他们已经在使用人工智能的比例已经增加了50%，从2018年的24%上升到2019年的36%。只有26%的组织报告没有计划投资人工智能(低于前一年的35%)。

考虑到当前管理层对人工智能的思考，也许这并不奇怪。根据普华永道公司的一份调查报告，72%的企业高管认为人工智能将成为未来的商业优势。如果客户对企业的业务至关重要，可能会关注2019年数字趋势的调查报告，客户体验(CX)领导者在其组织中使用人工智能的可能性几乎是其他公司的两倍。

当企业发现自己被推动评估和/或部署人工智能项目时，需要帮助避免转向系统级思维模式。

高性能计算(HPC)——借用有效的习惯而不会陷入困境

高性能计算(HPC)具有非常高水平的聚合计算能力，为单个应用程序提供巨大的性能，远远超过性能最强大的台式计算机或工作站，以解决在科学、工程或商业领域的重大问题。

人们可以从高性能计算(HPC)社区的经验中学到一些东西，使其所有系统运行得更好。当然，高性能计算(HPC)具有一定的神秘感，并且具有明确的文化。但是，每个企业都可以受益于采用经过培训的方法来导航人工智能、机器学习以及高性能计算(HPC)计算需求和机会。

高性能计算(HPC)与大型数据中心的区别在于是“相关计算的扩展”概念。如果说房地产与位置有关，那么高性能计算(HPC)与扩展有关。

并行编程的一个共同关注点，特别是在高性能计算(HPC)中，是测量应用程序的扩展效率(通常称为可扩展性)。这种测量表明，当使用越来越多的并行处理单元(处理器、GPU、ASIC、FPGA等)时，应用程序的效率有多高。

同样，对于优秀人工智能部署而言，真正重要的是扩展，其答案不是高性能计算(HPC)系统的精确副本。

有效的IT组织可以为寻求更广泛使用人工智能的组织指明方向

与高性能计算(HPC)专家协商的最重要的共同点是：系统级思维很重要。由于这有一些宽泛和模糊，企业可以深入挖掘并将其改进为有效的高性能计算(HPC)组织的七个关键的经验教训。

1. 大量投资于采购活动

如今有很多高性能计算(HPC)系统被收购，也有一些很好机会被闲置，因为没有时间认真评估它。企业可以从研究高性能计算(HPC)中心获得很多见解，这些中心在投资新的超级计算机时一直在寻找机会、复杂性和风险。几年前，行业专家发表了一篇名为《最佳高性能计算(HPC)经理如何制定最佳采购决策》的文章，重点关注旨在“降低采购风险”的工作。这含蓄地包括了在采购后的几年内仍然保持明智的需要。

为什么有人会聘请外部专家来帮助采购?Numerical Algorithms Group(NAG)的高性能计算(HPC)业务副总裁Andrew Jones解释了为什么增强企业内部能力是有意义的：“许多企业都有能力在内部完成这项工作。我们帮助提升能力和经验，扩充他们的团队，增强他们的能力和经验。大多数客户每两年只购买一台新机器，而我们则持续参与高性能计算(HPC)规划和采购项目。他们获得了多年的丰富经验，而不仅仅是我们与客户共度的几天或几周。”

在与内部利益相关者、供应商和详细技术调查的采购讨论中投入大量时间的价值不应被忽视。即使企业不投资聘请外部专家，那么在正常工作之外的投资是多少?如果不能的话，那么其失败是什么?

行业专家的对话反复回到坚持需要深入和诚实的竞争评估(组织自身的能力和缺点)、要求/基准、总体拥有成本和时间安排。以下讨论基准测试和计时的重要性，作为高性能计算(HPC)的接下来的两个教训。

2.投资开发和使用公正的要求/基准

投资决策与组织的需求和目标紧密相连，这一点至关重要。实现这一点的一个关键方法是“基准”。这不是指行业标准，而是指代表企业希望在采购的机器上运行的实际工作量的基准。企业不应该关心其机器能以多快的速度运行供应商喜欢展示的应用程序——企业关心在其内部的重要应用程序。

让供应商与企业的基准测试建议的系统是一项共同的努力。企业的潜在购买量越大，供应商可能需要的努力就越多。提供机器访问和协助是潜在客户对供应商的一种常见要求——不要羞于询问。但是，决定基准应该是什么，以及如何解释它们取决于企业本身，这是一项非常重要的工作。

重要的是要记住，基准测试只是实际工作负载的近似值。但是，如果使用得当，他们可以提供关于对企业来说重要的工作负载的可能性能的有价值数据，以及获得该性能所涉及的难度。

2019年数字趋势的调查表明，如今55%的人工智能在组织中的使用主要集中在数据分析上。当进行基准测试时，企业需要将基准权重与实际操作相匹配。这做起来比听起来难。在高性能计算(HPC)采购方面有经验的人可以分享他们对如何处理这一问题的想法。

Andrew Jones分享说，“我们避免将采购选项标记为非此即彼的好或坏。与性能数据本身一样重要的是，确定获得该性能所需的努力，以及对性能背后架构的理解。特别是，我们努力寻找将购买决策与实际需求的风险联系起来的信息。”

这在企业的经验中非常重要——仅仅因为代码可以运行得很快，并不意味着机器会运行得那么快。对机器上运行的内容进行真实的评估比想象机器上运行的内容更重要。当更多地提到“现代化努力”的时候，需要用一个不同的方式重新审视这个问题。

由于没有企业只运行单一代码——系统评估需要考虑性能可能性的权衡以及考虑选择时的潜在性能损失。企业的最佳选择通常是在大多数应用程序上“足够好”的系统，在少数工作负载上表现优异，但在一些重要性较低的应用程序上可能会比较慢。为了这项努力，企业需要最好的批判性思考者，需要将它们付诸实践。

过度关注系统如何提升一个基准测试不应该阻止人们看到更大的图景，特别是如果增加需要额外的采购、部署和支持成本。那么是否可以使用额外成本来更广泛地提高性能?

3.仔细考虑时间安排，制定明智的计划

各种技术的可用时间可能会影响能力和竞争。技术应用的太早或太晚都会严重影响竞争力。分阶段交付可能是升级系统以使用新技术的有力选择。股票经纪人可以告诉有关成本和价值平均的信息，这同样适用于计算，在不断增加投资的过程中有能力让企业在指导未来步骤的过程中学习。而企业了解供应商的长期路线图对于管理风险很重要。

知名记者Nicole Hemsoth写道，等待可能很重要。美国国家海洋和大气管理局(NOAA)敏锐地意识到人工智能可以提供帮助，但需要仔细考虑。她还指出，“这一评估过程与那些认为采用人工智能获益的大公司没有什么不同，但需要仔细考虑它是如何和在哪里适用的，以及它是否足够强化和稳定，以符合关键系统的要求。”

Tractica预测，在人工智能的广泛应用下，到2025年，全球软件的年收入将达到1058亿美元(相比之下，2018年仅为81亿美元)。他们预测电信、消费者、广告、商业服务、医疗保健和零售业将成为六大采用者。这表示制定一个多年发展计划可能是一个优势。

4.支持应用程序，并向用户学习

这不是说IT部门不支持他们的用户。但要说的是，许多IT组织缺乏支持人工智能等新兴用途的资金或章程。这造成了一个在高性能计算(HPC)世界中不太常见的差距。

如果人工智能对企业很重要，那么第一步应该是与用户和供应商合作，以找到支持企业所拥有系统的需求的方法。那么人们可能会惊讶地发现，使用已有的系统可以很好地工作，一个巨大的好处就是能够从中学习并成长。令人惊讶的是，这往往被忽视作为资源和试验场。即使正在进行学习，通常也会在IT和用户之间断开连接。与大多数高性能计算(HPC)组织一样，积极的IT组织密切参与支持和学习系统中最重要的工作负载。如果Python或Tensorflow对企业的用户很重要，那么是否了解如何为部署的平台获得最优化的版本?

5.协调实现代码现代化的实际计划

每当技术和机器快速发展时，代码也需要不断发展。代码现代化是一种编写可扩展代码的方法，该代码使用多级并行来充分利用现代硬件性能。人们将看到在高性能计算(HPC)社区内继续讨论和推广了多少代码现代化，以及它带来的积极影响。

致力采用高性能计算(HPC)的企业大量投资开源代码，都致力于改进新系统的开源代码。几年前，Andrew Jones曾在英特尔并行计算中心(Intel PCC)就职，英特尔并行计算中心的资金用于更新多核处理器的开源项目，Andrew Jones参与编辑了两本书籍，这两本书籍由世界知名团队通过工作来修改开源代码以实现现代化。

在这次旅程中，代码现代化比它最初出现的要重要得多，这是可以向IT组织提供的一个重要教训，无论现代化的实际工作是在内部完成的、希望在开放源代码中完成的、或在对外付费完成的。也可能是以上所有的混合。

有了这些见解，企业知道代码现代化对人工智能的应用也很重要。高性能计算(HPC)应用的经验表明，如果不投资代码(尤其是在技术快速变化的情况下)，往往会加强供应商的锁定。与供应商锁定相比，企业支付费用改进自己的代码可能会更好。

6.将云与无云视为平衡行为，而不是选择

尽管一些供应商正在大肆宣传，但“云中的高性能计算(HPC)”的概念并未停止对高性能计算(HPC)硬件的投资。Intersect360 Research公司的调查报告表明，在2018年，大多数高性能计算(HPC)预算或者增加(46%)，或者保持与前一年相同(38%)，其中商业网站的增长最强劲。这就强化了这样一个事实，即必须具备计算基础设施方面的专业知识。

基于云计算的服务，包括AWS、Google、Azure和其他服务，提供各种平台来进行试验和早期部署。这可能会延迟拥有基础设施专业知识的需要，并给这些专业知识一个在组织内成长的机会。虽然基于云计算的人工智能无疑是技术孵化的重要家园，但随着人工智能计划的扩展，企业发现自己需要构建和维护基础设施。这对高性能计算(HPC)专家来说是不足为奇的。

当成本、性能和大量数据都很重要时，拥有自己的计算基础设施专业知识更加重要。忽视这种对专业知识的需求是有风险的。

7.总拥有成本(TCO)——不只是从高性能计算(HPC)吸取的教训

当提到关注获得绩效的成本(评估基准)、时间安装(现在将获得什么好处与等待)以及投资于采购和现代化以获得真正平衡的方法时，将会涉及总体拥有成本。整个系统的一部分问题需要安全性，这也不是一个特定的高性能计算(HPC)问题(尽管高性能计算中心考虑了很多)。

总拥有成本(TCO)是第七个经验和教训，尽管总拥有成本(TCO)肯定不是高性能计算(HPC)独有的，但它对高性能计算(HPC)来说确实非常重要。没有什么比考虑整体情况更能说明“系统方法”——硬件、软件、应用程序、安全性和人员。系统的价值是企业从中获得的净收益，而不是为实现它而投入的资本和费用(TCO)。

以系统方法为中心的七个经验和教训

经验丰富的高性能计算(HPC)中心在实现大型高性能系统的采购和运营方面取得了巨大成功。有效的系统方法是他们成功的关键。这些成为任何企业冒险大规模支持人工智能的关键技巧。

当人们深入了解这七个经验和教训时，将采用这样的系统方法：投资采购活动、开发和使用公正的基准、仔细考虑时机，大力投资支持应用程序和用户社区，制定计划实现代码现代化，并管理总拥有成本。

高性能计算(HPC)的这些经验和教训可以为企业提供更多的帮助。但是，企业也没有必要都成为高性能计算(HPC)技术的狂热者。