谷歌人工智能背后的大脑

1996 年 Jeff Dean 在华盛顿大学获得计算机科学博士学位，三年后便加入了谷歌。谷歌在 1998 年成立，他是公司早期员工之一。Jeff Dean 在谷歌公司的成长过程中扮演了重要角色，设计并实现了支撑谷歌大部分产品的分布式计算基础架构。2016 年 8 月 Forbes 的 Peter High 对 Jeff Dean 做了一次采访，伯乐在线编译如下。

谷歌 CEO Sundar Pichai 曾说谷歌将主要成为一家人工智能公司，作为系统和基础架构小组的资深前辈，Dean 和他的团队对于实现这个计划来说至关重要。这次的采访所涵盖的内容比较广泛，Dean 描述了他在谷歌扮演的多样角色，公司的 AI 愿景以及他对于谷歌即使已成为科技巨头但仍保持着创业精神的看法，同时还包括其他各种各样的话题。

Peter High：你好，Jeff Dean，你参与了谷歌大部分的历史，在 1999 年就加入了公司。请简单描述下这十几年来你在公司的角色是如何演变的。

Jeff Dean：我刚加入时公司真的很小，我们一起挤在帕罗奥图市大学路的一间小办公室里。我做的第一件最主要的事情就是创建我们第一个广告系统。之后，我花费了4到5年的时间在用于每一次查询的抓取、索引和搜索系统。之后，我主要与同事 Sanjay Ghemawat 等人创建用于存储和处理大规模数据设置的软件基础架构，还做一些像搜索指数或者处理卫星图像这样的事情。最近，我致力于机器学习系统。

High：你在公司的权限有多大，你要做的工作范围有多广？我猜想你没有“普通的一天”。你如何与公司内部或者外部的人员互动？在当前的工作上，你如何把时间分配在这些不同的事情呢？

Dean：真不是典型的工作日。在最初的 14 到15 年，我没有接受任何管理性的职位，这给了我更多自由时间去集中精力写代码。在最近几年，我接受了一些机器学习方面的管理职位，这对我来说很有趣，也是新的学习经历。因为在公司历史上我从事过多种工作，我会保持跟进这些不同的项目，我收到很多邮件。我花费相当一部分时间去处理邮件，通过浏览邮件来跟进项目的最新进展。在任何特定的时间，我手上都有几个技术性项目，我努力分配出时间在这些项目上面，同时还穿插着各种会议和设计审查各种事情。

High：尽管谷歌已经取得了巨大的发展，它仍然是保持创新的典范。它保持着壮志雄心和开拓创新，仿佛它只是一个很小的组织一般。但是它已有了资源——不管是人才上还是资金上——俨然已是科技界的庞然大物。这个组织是如何对抗停滞和官僚主义，从而保持不拘于自身规模的更强的灵活性呢？

Dean：自从我加入公司以来，我们基本就经历了公司的不断成长。在早期，我们新招聘的员工每年都会增长一倍。按新员工占总员工的百分比算，我们后来降低了这个比例，但是在绝对数量上，我们基本仍保持一个大的增长，现在大约每年招聘 10% 到 20% 的新员工。公司规模每扩大一倍，我们就被迫使去重新思考公司已经完成的这些事情。哪些过去适用于 X 倍规模，但却不再适用于 2X 倍规模，我们必须去努力使我们的模式、工程、组织结构、团队动力等适应新的规模。

我认为有助于我们成长的一个举动是，把与谷歌其他业务在一定程度相分离的部分独立出来，成立不同的部门。创建为偏远地区覆盖网络的高海拔气球，与服务搜索查询有相对适度的互动。大体上把各种不同的活跃的项目独立开来，我们能获取更好的规模和效率，这些项目是我们的核心业务，但是彼此不需要太多的沟通交流。

High：我理解 Google/Alphabet 各部门的分离，是出于想要维持一定的灵活性，和划分开不同的活动的逻辑。这个评价是否公允？

Dean：是的。我认为这使得 Alphabet 下面一些其他实体可以更独立地操作。关于规模的成倍增长，有一个有趣的转变是：以前我们每个人都是在同一个大楼，现在每个人都不在同一个大楼。

另一个转变，以前员工只在山景城，后来在瑞士苏黎世、纽约、日本东京和西雅图都设有办事处。我们一度有 5 个办事处，都相当大而完善。然后在短短几年内，我们的办事处从 5 个扩张到 35 个，因为我们觉得在世界各地设有许多办事处很好，在哪里可以找到有才华的人才，就在他们身边设立一个办事处。这促使我们不得不重新思考，如何去组织我们工程师的诸多成果。如果你有一个小的办公室，他们可能不应该做一百件事；他们应该做少数几件事，并专心把他们做好。一些小办公室采取的模式是看山景城的人在做什么，他们看到他们在做一百件事，所以他们认为他们也应该做一百件事。我们慢慢摸索到有一种更好的方式来充分发挥这些散布在各地的工程办事处的人的能力。

High：谷歌 CEO Sundar Pichai 曾说，从长远来看，设备装置将会消失，计算将从移动设备优先向人工智能优先进化。你如何看待谷歌对于人工智能优先的愿景？

Dean：我认为我们已经从桌面计算进入到了移动计算，这时候每个人都有一个计算设备随身随时携带。随着设备不断地缩小，语音识别和其他可用的 UI 变得实际可用，这将改变我们与计算设备交流的方式。他们将会退居到幕后或者只是周边，允许我们与他们对话就像我们与其他可信赖的伙伴对话一样。他们将会帮助我们获取我们需要的信息和完成各种任务。我认为这是推动机器学习的一个主要目标：在提供咨询方面让计算机提供其他人类伙伴能够提供的智慧，期待必要的时候有更多的信息和更多这类的事情。我认为在下个 5 到 10 年，将会是一个激动人心的时期。

High：随着各种进步和各种关于 AI 的目标的实现，看起来很多人不再谈论那些已经实现的真正的 AI。那就是，AI 在被谈论时似乎总是带有未来色彩。你怎么定义 AI 的边界？

Dean：我认为真正的通用人工智能将是一个系统，能够执行人类水平的推理，理解和完成复杂的任务。我们显然还没有达到这个水平，但你说得很对，确实有了很多进展。5 年前，给计算机一张图片，它还不能生成一个人类水平的句子来描述这个图片。现在，计算机生成的句子会说，“这张图片描述的是一个男人拿着网球拍在网球场上。”同时，一个人可能会说，“这是一张网球运动员发球的图片。”人的描述更为微妙，但事实上，现在计算机能够生成看起来几乎是人类写的标题，这是一个相当大的进步。这只是过去的 5~6 年间已实现的众多更具智慧的机器学习模型中的其中一个成就。随着他们应用更大的数据和计算，结果会更好。

High：你认为我们距离通用人工智能还有多远？

Dean：不同的问法有不同的回答，这个问题有点广泛。我只敢给出一个宽泛的猜测。大约就是 15 到 50 年，也有可能比 15 年更早。

High：正如你所提到的，语言是关键，许多谷歌的人工智能都围绕着语言、阅读和理解网页上的一切或从事智能对话和理解背景。你能谈谈能使得机器更好的解释事物的路径吗？你预见的事情，以及你从事的事情正朝什么方向进展，如果还没完全达到全面的通用人工智能的话？

Dean：我认为有趣的事之一是信息检索领域，这基本上就是谷歌早期做的工作。传统上，它并不试图真正理解用户在查询时需要什么。它更多的是关于查找包含或者接近这个单词的文档。有趣的是，在过去的四五年，我们已经开始发展出这样一种技术，可以更好地理解“car”这个单词的本质。知道 “car” 和 “cars”、 “automobile”、“passenger car”、“pickup truck” 在某种意义上都是相关联的，能够以更顺畅的方式匹配出文章，在许多语言理解任务上可以得出更好的结果。

我们能理解的不仅仅是单词，我们的理解还能达到这个水平，即理解在阐释上不同但意思相同的两个句子。这开始促使我们的语言理解达到这样一个层次：以更机器学习的方式理解更长得多的序列文本。

接下来几年我们有个目标，希望能够采集数以百计数以千计的文件，然后对这些文件内容展开一个对话。也许系统会自动总结这些文件，提问或者回答关于文件内容的问题。我认为这种水平的理解，是我们将真正去实现的高水平的语言理解。

High：似乎你和你们团队的成果已经开始应用在谷歌的各种产品当中：谷歌助手，谷歌新的对话虚拟助手；与 Amazon Echo 相竞争的 Google Home；以及为谷歌服务提供对话界面的信息 APP——Allo。你怎么看待谷歌最近的产品和服务？

Dean：我目前领导的研究小组被称为谷歌大脑（Google Brain）。我们专注于建立大规模计算系统来实现机器学习，和做前沿的机器学习研究。只有机器学习技能或只有大规模计算技能的人才，往往不能完全发挥他们的才能，而同时拥有这两种不同技能的人才在一起工作，合作解决问题，通常会产生出意义重大的进步。我想这就是我们团队在这两个领域，在关于我们在这些难题上投入达到世界先进水平的计算力，以及我们怎样训练大有力的模型在我们关心的问题上都取得很大成功的原因之一。

通过理解我们的一些研究成果什么时候可以用于提升谷歌现有产品上，我们以往在长期研究上是相当机会主义的。我们与产品团队一起合作说，“嘿，我们认为这个机器学习研究将会非常有用。”有时这是需要放手去做的事情。其他时候我们小组和产品团队深度合作，让研究结果变成真实产品。

我们小组的研究人员曾发明了一种叫“从序列到序列学习（sequence-to-sequence learning）”的模型。这其中的理念是，你使用一个输入序列来预测某些输出结果序列。听起来有点抽象，但可以映射到许多你想要解决的真正问题。他们发表的研究论文最初是在语言翻译的背景下。输入序列可以是一个句子中的英文单词，一次一个。该模型被训练去输出对应的法国单词来创建一个法语句子，意思与输入的英语句子相同。这不同于其他机器翻译系统，别的机器翻译系统往往是问题的代码和子件——也许使用了机器学习或统计模型，然后将它拼接在一起。相比与那个方法，这个系统是一个完全的机器学习，端到端系统，在这个系统中你用语言不同但表达的意思相同的成对的句子作为数据来训练，然后系统就能学会将一种语言翻译另一种语言。

在其他语境中，这种通用模型非常有用。Gmail 团队采用了它，把它作为我们称之为“智能回复”特征的基础，其中输入序列是一封刚收到的邮件，而通过序列是根据刚收到邮件的语境而做出的对回复内容的预测。例如，你也许会收到一封这样的邮件，“嘿，我们想邀请你参加感恩节晚宴。如果能来请回复。”回复通常来说可能是这样。“是的，我们很想去。我们要带些什么？”或者“不好意思，我们去不了，”或者与此语境下相关的类似的回复。它是同一个基本模型，只是用了不同的数据集来训练。

High：潜在的研究应用以及 Google Brain 做出的突破，如何部署在谷歌传统的产品服务中？

Dean：我们已经开始将这个流程变得规范一点。五年前，当我们最初创建机器学习研究团队去研究海量计算和深度神经网络如何解决问题时，公司里还没有太多人使用这些方法。我们找到了一些感觉领域，在这些领域我们感觉他们是有效地，包括语音识别系统，所以我们与语音识别团队密切协作，将深度神经网络配置为语音识别系统的一部分，并且在识别准确率上取得了实质性进展。然后我们和各种计算机视觉相关团队合作，比如图片搜索和街景服务团队，从而训练模型在给定的各种图片的原始像素下做有趣的事情，比如从图片中提取文本或者理解图片内容是什么（美洲豹、垃圾车等等）。

有趣的是，随着时间的推移，更多的团队开始采用这些方法，因为他们总会听说另一个团队正在尝试新的东西并取得了好成果。我们会帮助这样这些团队建立联系，或者提供一些关于在特定问题情境中如何使用这些方法的基本建议。我们后来把这个流程做得更规范了一些，所以现在我们有一个专门的团队做外展服务。这是为正在产品中尝试使用这些机器学习模型的团队建立联系的第一点。他们会描述他们的问题，然后外展服务团队会告诉他们：噢，听起来很像另外 XX 团队的问题，这个解决方案很有效果，试试并记得给我们反馈。使用这些方法的团队在数量上有非常大的增长，在 2011 年、2012 年只有几个团队，现在已经发展到 200 多个，并且可能已有几千人在使用我们团队创建的软件训练这种模型。

High：你同时也是 Google 开源机器学习库 TensorFlow 的主要创始人。和其他几个大公司一样，谷歌专注于开发开源 AI 技术。您对使用开源人工智能技术的理论基础及优势有什么看法？

Dean：现在有许多表达不同机器学习算法的不同框架，并且都还是开源项目。有更多选择，我认为挺好的，但如果我们可以开发出能获得机器学习社区支持，大家一起来改进的东西，这样也很好。这些框架都在尝试着相似的工作，所以如果我们能将它们放在一起形成一个库供大家采用和使用，这样是很好的。这样做，可以更为简单地表达机器学习想法。传统方式是把探索出来的想法写成论文，做一些实验，而且他们通常不会公开代码，不允许其他人再做这些实验。作为一个研究者，你正在看某人的论文，并尝试将你自己的技术与其对比。通常，因为论文中没有代码，你只能猜测那些代码会是什么。作者并不是有意省去了大量细节。论文作者也许会使用「我们使用了低的学习率」一样的描述，然而你关心的是他们使用了 .0001 的学习率，在一万步后降低到 .0005。建立一个人们可以用代码表达机器学习理念，并把这些研究模型和想法以可执行的方式发布出来的软件架构，使得机器学习理念可以在社区中快速传播。

对于我们自己而言，它也方便了我们与谷歌外部人员的合作。通常我们暑期会招聘实习生，过去他们大部分已经完成了实习期的项目，但是他们仍在写这方面的论文。然后他们离开了谷歌，再也接触不到谷歌的电脑，所以他们很难继续完成论文最后的工作，运行更多的实验。现在他们使用开源或者 TensorFlow 就可以很快做到，甚至可以找到平台上的人来帮忙。我们正在教谷歌的工程师学习通用机器学习，并把 TensorFlow 作为基本的教学工具。

High：谷歌的优势之一是它拥有大量 AI 和机器学习领域的人才。谷歌研究主管Peter Norvig 估测，全球超过 5% 的机器学习顶尖专家都在谷歌工作。谷歌如何做到对这些天才有这么大的吸引力？鉴于这涉及到多个不同的学科的交叉——计算机科学、工程、神经科学、生物学、数学，你怎么把这些人才安排到最适合他们的位置？

Dean：因为我们涉足的领域很多，所以我们需要拥有多种专业知识的人。我发现，当你把具有不同专业知识的人聚在一起去解决问题时，你会发现最终得到结果比那些只具备一种专业知识的一大群人一起做出来的要好。总的来说，你最终做的事情，没有人可以单独做出来。我们的机器学习团队是一个很好的例子。我们有像我一样在建设大规模计算系统方面有很多经验的人，然后我们也有世界级的机器学习研究人员。把这些类型的人结合起来是一个非常强大的团队。机器学习正在接触很多不同的领域。我们正在做的工作涉及医疗、机器人和计算机科学里的一大堆领域，这非常的好。我们团队有数位神经科学专家。

很快我们将开始一个有趣的实验，它被称为“谷歌大脑培训项目”。这些人在我们的团队工作一年基本上是学习怎么去做机器学习研究。我们有大量的申请者，但是最后这个项目只会留下 28 个人。他们来自不同的背景，处于职业生涯的不同阶段。有的刚刚完成本科学业，有些已经读完博士，有的刚读完博士后，有些已经在不同的领域有过工作经历。他们有不同的学科背景，包括计算机科学、统计学、数学、生物学、物理学，从解决问题的角度来说，我认为这是一个极好的结合。

High：我很好奇，有很多不以技术为中心的传统公司也会使用人工智能和机器学习，你会在多大程度这些传统公司交流与合作？你如何看待采用创新曲线（市场采用新型或创新产品的速度）？显然这涉及了不同公司甚至是不同行业，但也有一些领先的传统行业开始利用人工智能，包括医疗、金融服务公司、有大量非结构化数据需要处理的公司。你是否曾经有机会与传统行业的公司互动或者谈论他们在更加传统的环境中走向人工智能的过程？

Dean：其他行业的大部分公司在把机器学习应用到业务方面，可能不如谷歌或者其他高科技公司那样深远。我认为随着时间推移，最终大部分公司都会越来越多地应用机器学习，因为机器学习会给他们的业务带来很大的能量和转型。在与一些大的医疗组织建立合作关系上，我们有过多次讨论，看看机器学习可以为这个领域解决什么样的问题。我们最近开发了一个机器学习云产品，可以让人们在谷歌云基础设施上运行机器学习算法。有很多公司对于他们怎么在起业务背景下使用这个产品感兴趣。

我认为要实现这个转变的途径之一，要经历几个层次。在这些层次中你能使用 AI 技术和机器学习方法来解决问题。在一些领域，了解图像中有什么东西，对很多行业来说是普遍有用的。谷歌和其他公司正在提供使用简便的接口，你不需要知道什么机器学习的知识就可以使用这个接口。你可以只给出一个图像，然后说“跟我说说这个图像”，软件工程即使没有机器学习方面的技能就可以使用，他们得到的信息会像是“照片上是一个体育场，人们在那里打棒球，而且图像中还有一堆文字，文字内容是……”即使没有应用机器学习，这也是非常有用的。

然后将已开发好的模型用公司的数据再次训练得到一个定制的方案，而不需要做核心机器学习研究去开发一个全新模型。有一个好例子，我们已经应用序列到序列的成果，解决了谷歌六七个不同的难题。另一个好例子，有一个模型可以采集图像然后找出图像中有趣的部分。这个通用模型的一个使用案例是，检测街景图片中的文本信息。你想要能去读取所有的文本，但是首先，你必须能够在店面、路标等上面找到它。这个通用模型同样适用于在医疗设置中，当你诊断糖尿病患者视网膜病变时，你给出一张视网膜的扫描图片，你想要找到这个图片中的病变的指标。这是相同的模型结构，只是换了不同的数据。在这里不是找出街景图片的文本，而是指出视网膜扫描图像中的病变部位。我相信这个通用方法可以很好地解决各类型的难题。

High：2016 年 3 月，你在韩国现场目睹了 AlphaGo 的首场胜利。亲眼见证这个成果的感受如何？鉴于人工智能已经更广泛地影响到了我们的日常生活，你如何看待这种世界博览会般的展示，以及人工智能对激发人类想象力和好奇心的广泛影响?

Dean：我在现场观看了首场比赛，赛程的一半时间我都留在韩国。那种激动的心情真的难以言说。有 3 亿中国人现场观看了首场比赛直播，他们用了 8 个电视频道，每场都有不同的评论员报道这个比赛。韩国也处于同样的兴奋状态。真是很精彩。

我认为这种高调的事件，展示了与人工智能相关的各种难题取得了重大意义的进步。我需要指出的是，AlphaGo的大部分工作都是我们伦敦的 DeepMind 团队完成。在项目开始的阶段我们与他们有过一些合作，他们还使用了我们的机器学习软件来训练一些 AlphaGo 模型。他们还使用了张量处理单元（Tensor Processing Unit）——这是一种谷歌设计的定制机器学习硬件芯片，在某种意义上来说这是 AlphaGo 的比赛中的额外的“秘密武器”。人们注意到计算机现在拥有了四五前不曾有的能力，这使我们感到兴奋。在全球范围内，计算机科学系机器学习课程的招生量已经猛增。我认为这个意义重大。受益的不仅仅是计算机科学，还包括公司和业界。有越多聪明的人思考这类问题，我们的社会就会更进步。

High：许多科技界的知名人士比如埃隆·马斯克、比尔·盖茨和斯蒂芬·霍金都对人工智能的安全问题发出过警告。你怎么看到这方面的风险？当你对人工智能的思考不断进步成熟时，你如何把这方面的风险也考虑进去？

Dean：我觉得我并不太赞同你提到的那些人所担忧的末日场景。我觉得那不够贴近现实。我确实认为 AI 会带来社会变革，首先最大的问题就是自动化比较难进行，我们有大量的劳动力会参与到其中。有些事情会被自动化代替，尽管不是完全代替。电脑会以多种方式给予我们帮助，比如阅读医学图像数据，这是一个狭窄但是高技能的领域。我认为电脑不久之后就会相当擅长这方面的工作，更别提自动驾驶了。我不确定政府都在认真思考这些技术的一些影响，以及这对社会总的来说意味着什么。我认为这才是急切需要担忧的。确保决策者仔细考虑这些类型的问题，将是一个非常重要的一步。