人工智能炒作的背后究竟有什么？谷歌AI专家帮你

人工智能前沿会议（AI Frontiers conference）于11月3日-5日在美国加州圣克拉拉召开。谷歌产品经理、本次大会共同发起人之一的萨克塞纳（Apoorv Saxena）日前接受沃顿知识在线专访，介绍为什么各界对于人工智能的关注与日俱增，人工智能的近期发展趋势，以及长期挑战有哪些。【沃顿知识在线是本次大会的媒体合作伙伴。】

以下是采访对话编辑版本。

沃顿知识在线：近一段时间，各界对于人工智能的关注与日俱增。究竟是什么令各界疯狂炒作人工智能概念？对于人工智能，有没有哪些比较主流的认知性错误？炒作与现实之间又该如何区分？

萨克塞纳（Apoorv Saxena）：关于近期各界对人工智能的高度关注，背后有这样几个因素。首先，人工智能领域长期未能得到解决的部分问题最近取得重大突破。其中主要涉及图像和语音理解的问题。比如，现在的计算机已经可以比人类更好地转录人类语音。人类试图攻克语音理解难关的努力已经持续了二三十年之久。直到最近这方面才取得了重要进展。图像理解也是这个情况，还有人类语言理解的一些具体分支，比如翻译领域。

是深度学习技术帮助我们取得了重大突破。这项技术由来已久，需要借助高度分散式的、可量化的计算基础设施才能实现运行。同时，还需借助海量数据对算法进行验算，并使用简便的工具来建立人工智能模型。这些都是人工智能领域引发高度关注的主要原因。

人们会很自然地把最近某些领域取得的突破投射到未来。有些人甚至对一些深度学习技术尚未落实的领域也做出了大胆预测。这样做既吸引了眼球，但同时也造成了大量误解。其实，人工智能尚无法很好地学习新概念、更无法将学习成果延伸到新的上下文当中。

举个例子。人工智能系统仍旧依赖于大量数据来进行训练。我们人类并不需要事先观看4万张猫的图片才能知道那是猫。人类小孩只需要看过两只猫，就能分辨出哪只是猫，哪只是狗，还能说出两者的区别。因此，目前的人工智能系统远无法复制人类思想的学习能力。在可预见的未来，这将是一大挑战。

沃顿知识在线：炒作与现实之间如何区分？

萨克塞纳：很多乐观的论调来自对当前趋势的推断，但是都忽略了这样一个现实：一些东西从研究报告变成工程产品很难。作为一名利用最新人工智能技术设计产品的产品经理，我必须努力地将炒作与现实严格区分。最明智的做法，就是兼具工程师的适度怀疑精神与研究者的乐观精神。你需要知道最新研发的很酷的人工智能原型背后有哪些根本的技术性原则，并能推断出哪部分技术有着坚实的理论基础。比如，如果你知道是哪些驱动因素推动了语音识别领域取得突破，那你就很容易判断出未来语音识别的质量将会大大改善。同时，出于对自然语言理解技术现状的适度怀疑精神，你将能够发现真正的机遇所在，比如呼叫中心哪些工位在不远的未来可能被自动化所取代。

沃顿知识在线：近期人工智能会有哪些可能的发展动向？哪些是短期内比较难以实现的？

萨克塞纳：正如我刚才所说，在一些狭义领域，比如语音识别领域，人工智能的复杂程度已经超过了最优秀的人类。但是在比较宽泛的领域，那些要求推理、上下文理解和目标寻找的领域，人工智能还赶不上5岁的孩子。我认为人工智能系统尚无法在无人监管的情况下很好地进行学习。如果数据量十分有限，人工智能是无法学习的。如果人类不给予干预，人工智能也无法进行训练。这是今后最主要的难题。目前的研究均未能在这方面取得显著进展。

“深度学习之父”Geoff Hinton（谷歌工程师）有一句话说得好。我可能无法转述原话，但基本上是这样说的：“深度学习实际上让人工智能变了味，因为它让很多人以为人工智能无所不能。而我们知道，人工智能仅能解决很有限的几类问题。”我认为人工智能的挑战依旧巨大。目前尚无进展能证明这些问题会在短时间内得到解决。

沃顿知识在线：人工智能是一个庞大的领域，覆盖很多方面。其中一些问题对非专家来说不太好理解。比如，您和沃顿商学院运营、信息及决策教授Kartik Hosanagar曾在去年4月合作过一篇沃顿知识在线文章，关于机器学习的民主化问题。机器学习领域有哪些让您尤为印象深刻、或者令您感到惊讶的进展吗？

萨克塞纳：令我印象深刻的是，借助一些十分便利的工具，人工智能在很多方面都可以帮助人类。我们都听说过日本的农民利用人工智能对黄瓜进行分类，把好黄瓜和坏黄瓜分开。非洲一些物流公司利用人工智能运送包裹。对于人们如此迫切地渴望利用人工智能、并且充满创造力，我深感惊讶。虽然人工智能的运用领域有限，但人们依然物尽其用。这一点着实让我印象深刻。

沃顿知识在线：除了机器学习，你还多次提到了深度学习。我们的读者大多不是人工智能专家，能不能解释一下深度学习和机器学习有什么区别？深度学习有哪些重大突破？

萨克塞纳：机器学习比深度学习的概念要宽泛得多。机器学习从根本上来讲就是一种计算机利用数据进行学习的模式，计算机利用习得模式来对新数据进行预测。而深度学习则是一种具体的机器学习技巧。

深度学习按照人类大脑学习和使用神经网络的模式进行建构。神经网络是神经元组成的分层网络，能够从数据中学习模型并作出预测。就像人类会利用不同水平的概念化来理解一个复杂问题那样，每一层的神经元都会以层级方式对一个具体特征或概念进行抽象化，从而理解复杂的模型。深度学习之美就在于，它与其他机器学习技巧不同：当你输入更多训练数据时，其它学习技巧的预测表现会停滞，但深度学习的表现会随着更多数据的输入而不断增强。同时，深度学习已经被运用于解决类型迥异的问题，并且表现良好。其它技巧是无法做到这一点的。这些因素让深度学习变得与众不同，特别是对于那些你可以输入大量数据和计算能力的问题。

沃顿知识在线：能不能介绍一下深度学习有哪些令你印象最为深刻的重大突破？

萨克塞纳：深度学习是个频频带给人以惊喜的领域。最近这二三十年，大量尝试和新技术层出不穷。我现在能想到的有两个。一个是强化学习，我会展开讲一下。另一件目前正在发生的大事简称GAN，就是“生成对抗网络”（Generative Adversarial Networks）。

这两项都堪称重大突破，因为它们解决了人工智能的一个关键问题，我也特别提到过：如何在没有太多人类监督的情况下进行学习。简单地来解释的话，强化学习本质上属于基于代理（软件程序）的学习，通过赋予它一个优化目标，然后这个代理经由多种路径来进行优化，然后从错误或失误中选择一种最佳路径。机器学习的进步也是基于同样的技术：如何玩电子游戏，比如Atari的游戏，甚至是Go等更加高级的策略游戏。

另外一个引发热切关注的重要领域主要涉及“生成对抗网络”，简称GAN。简单地说，想象一个人和伙伴一起学习。这样我们就得到了两个相互竞争、相互训练、相互促进的神经模型，从而加速学习进程。GAN在解决“无监督学习”这一类问题时效果尤为显著。就是在你手头没有多少培训数据来告诉机器该学习什么的情况下。GAN目前的应用领域包括图像生成、视频渐变等，未来还将有更广泛的应用。

沃顿知识在线：人工智能还有一个方面吸引了大量眼球，那就是自然语言处理，往往涉及智能助手，比如苹果手机的Siri、亚马逊的Alexa，以及微软的Cortana。聊天机器人技术是如何演变的？未来将会如何？

萨克塞纳：正如你所说，该领域所有巨头都在这方面投入巨资。其引发了大量关注主要基于两个原因。这是人类与机器互动的最自然的途径，和机器对话，然后机器也能理解。这也从根本上改变了电脑与人类的互动方式。几乎所有人都相信，这将是接下来的一件重要事件。

当然，这项技术的早期版本并不尽如人意。原因在于对自然语言的理解或处理是极其困难的。比如，你不能像图像理解或语音理解那样，单单运用某一种技术或者深度学习模式就解决掉所有问题。自然语言理解与它们有着本质上的差别。理解自然语言或者对话，离不开大量的人类知识和背景知识。因为和语言相关的上下文信息太多，除非你把所有人类知识都教给代理，否则它无从理解，即便是最基本的语言。

挑战就在于此。你所提到的各大公司都在该领域投入了巨资。就我所见，一些具体领域的确取得了一些进展，比如你可以点披萨，以及解决“我的银行账户余额不足，是否允许此次交易进行？”这类问题。这些问题估计用不了多久都能解决。但如果是更加开放性的讨论，比如把你的人工智能助手想象成你的神经科医生，要解决这类问题肯定为时尚早。毕竟它们需要对人类知识、人类情感有极为深入的理解。在可预见的未来，人工智能尚无法具备这种能力。

沃顿知识在线：你觉得聊天机器人未来会变成什么样？

萨克塞纳：如果聊天机器人在具体的、垂直的领域或上下文中工作，正如我所说，它们会做得很好。如果上下文是固定的，不会变化，更重要的是使用者对聊天机器人的预期比较有限，我认为在这些领域聊天机器人的表现真的会很好。

目前另外一个用到聊天机器人的领域叫做“目标导向谈话”。比如，建立两个人之间的会议或预约，完全可以交由聊天机器人来完成。这里的上下文十分有限，仅限于协调两人的日程，或者预定餐厅。可以不需要专人致电餐厅预约，聊天机器人自动完成，因为任务和上下文都是严格规定的。我认为超过这个范围的任何任务目前仍是比较困难的。

沃顿知识在线：什么是计算机视觉？是否可以让机器像人类那样理解视频？该领域有哪些前景最好的商业运用？最大的挑战是什么？

萨克塞纳：计算机视觉是指理解图像与视频的一门科学。举个例子，理解图像就是知道一个图像中包含什么物体。视频也是同样的。在一部视频中，你会思考自己看到了哪些不同的场景，以及这个场景中有哪些人和物。

接下来通过将视频中不同的图像、场景或帧联系到一起来描述每个场景，这也是可以做到的，至少目前越来越有希望做到。人工智能能够做到在观看一部视频后总结它在视频中看到了什么。所有这些都属于计算机视觉或者视觉理解范畴之内。

计算机视觉的应用领域很广。其中一个前景比较乐观的就是监控领域。我们能够通过监控视频发现异常现象。另一个主要的应用领域是自动驾驶汽车。人工智能帮助汽车理解路面有什么东西，发现物体，作出决策，让汽车可以根据发现的结果做出决定。这是另一个比较主要的领域。

我认为，视频理解领域已有了比较显著的进展。今天，视频之所以被称为“暗数据”是有原因的。因为我们对视频的理解能力极为有限。但是想象一下，当机器开始理解视频里的内容时是怎样一番景象。你会看到，不远的将来，我们会在这方面取得令人难以置信的进展，机器能够帮助人类自主生成视频。并非完全自动化，但风险之一是机器可能有能力制作虚假视频。最近你或许看过一部虚假的奥巴马讲话视频，在社交媒体上很火。改变视频内容以及对口型技术十分容易，几乎可以以假乱真。这也引起了极大的争议。因此，视频修改和改变视频内容的能力既是一个巨大的机遇，也是一项艰巨的挑战。但无论如何，这就是趋势。

沃顿知识在线：听起来很神奇。现在有一些大公司积极参与人工智能的研发，特别是谷歌、微软、亚马逊和苹果。在中国则有百度、阿里巴巴和腾讯。对于初创企业和规模较小的公司来说，如何把握人工智能的机遇？如何实现增值？您认为他们能否很好地融入人工智能生态系统？

萨克塞纳：我认为无论是大公司还是小公司都有利可图。这个领域有很多巨头，他们搭建了现成的平台。其他人其实可以着重开发人工智能应用。人工智能领域几乎所有参与者都建立了平台，包括谷歌在内。其他人可以借助这些平台开发应用。这就和利用安卓或移动平台一个道理。只要平台建好，大家就可以开发应用。因此，显然这才是我们该集中注意力的地方。毫无疑问，初创企业十分有望利用好大公司开发的开源工具，建立自己的应用。

第二个初创企业有望大施拳脚的地方，就是所谓的“垂直领域”。人工智能的进步在很大程度上取决于优秀的算法与专有数据的结合。虽然谷歌等巨头掌握一部分最顶尖的工程人才和算法，但却无法拥有所有数据。因此，比如某个公司掌握医疗健康方面的专有数据，他们就能建立一家医疗人工智能初创企业，与那些巨头一争高下。金融、零售等行业也是同理。

沃顿知识在线：能不能举例说明一下，有哪些初创企业在人工智能领域做出了尤为突出的成绩？为什么他们的工作十分重要？

萨克塞纳：目前以人工智能为中心的初创企业尚未取得太多突破性成功。当然我所谓的突破性成功是指做到成百上千万、甚至几十亿产值的初创企业。还是有很多前景光明的初创企业的。比如在客户服务领域，我见到一些初创企业做得很好。我知道人力资源自动化领域也有做得不错的初创企业。

沃顿知识在线：未来12到24个月内，每个人最该关注的三大人工智能领域是什么？原因是什么？

萨克塞纳：我认为，机器人和人工智能的交叉将是十分有趣的事情。一直以来，机器人领域的研究令人失望，主要是指大规模应用的问题。我预言，人工智能和机器人在这方面的结合将是诱人的。我们可能会看到一些值得关注的应用产生。更加拟人化的机器人也是一个比较重要的领域，这离不开自然语言理解和视觉理解的进步，当然还有机器人。我肯定会密切关注这方面的进展。

自动驾驶汽车也是一个很重要的领域。未来几年之内，我们就将见证自动驾驶汽车的商业化部署。

我对视频理解领域的未来发展也抱有乐观态度。视频理解与视觉现实的结合有望带来一些有趣的突破。这同样是值得我们持续关注的一个方面。关键是不要仅仅关注人工智能，而是要关注人工智能和其他领域的结合。在不远的将来，或许会取得令我们惊叹的成果。