谷歌开放全新自然语言数据集：多元化场景更详

近日，谷歌宣布开放两个新的自然语言对话数据集，分别是 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1。这两个数据集旨在对更接近人类对话的数据进行更详细的标注，并提供到自然语言处理相关研究者更符合生活实际的数据内容。谷歌发布了相关内容详细介绍该开放数据集，编译如下。

数据集背景

目前，智能助理能够完成多类任务并返回多个主题的个性化结果，例如：电影列表、餐厅预订和旅行计划等。然而，尽管近年来，我们在这方面取得了巨大进步，但智能助理依旧未能达到人类理解的水平。

产生这样的结果，一部分是由于智能助理缺乏高质量的训练数据;而这些数据恰好能够准确地反映人们向智能助理表达的需求和偏好方式。

正是因为这些系统的局限性会影响我们表达的「我们希望得到理解」的内容，因此我们常常选择调整自己的言辞，而反过来去适应智能助理所能理解的内容。换言之，现在的智能助理对话理解能力，远远没有达到人类所需的对话复杂程度。

更自然的对话框数据集

为了解决这个问题，我们发布了 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1 对话框数据集。两个集合都使用了 Wizard-of-Oz 平台(https://en.wikipedia.org/wiki/Wizard_of_Oz_experiment)，该平台能够将两个进行口语对话的人匹配，就像那些想要拥有真正有效的智能助理的人一样。

对于这两个数据集，Wizard-of-Oz 平台内部的设计旨在独特地模仿现在基于语音的智能助理，在自动化系统的环境中保留口语对话的特征。

由于「人类助理」可以准确地理解用户所要求的内容，因此我们能够捕捉用户如何将自己真实地表达给「完美」的智能助理，以便我们可以继续改进这样的系统。

CCPE 数据集

CCPE 全称为 Coached Conversational Preference Elicitation，它是我们提出的一种在对话中获得用户偏好的新方法，即它允许收集自然但结构化的会话偏好。通过研究一个领域的对话，我们对人们如何描述电影偏好进行了简要的定量分析;并且向社区发布了 CCPE-M 数据集，该数据集中有超过 500 个电影偏好对话，表达了 10,000 多个偏好。

具体而言，它由 502 个对话框组成的数据集，在用户和助理之间用自然语言讨论电影首选项时有 12,000 个带注释的发音。它通过两个付费人群工作者之间的对话收集，其中一个工作人员扮演「助手」的角色，而另一个工作人员扮演「用户」的角色。「助手」按照 CCPE 方法引出关于电影的「用户」偏好。

助理提出的问题旨在尽量减少「用户」用来尽可能多地传达他或她的偏好的术语中的偏见，并以自然语言获得这些偏好。每个对话框都使用实体提及、关于实体表达的首选项、提供的实体描述以及实体的其他语句进行注释。

偏好启发

在面向电影的 CCPE 数据集中，冒充用户的个人对着麦克风讲话，并且音频直接播放给冒充数字助理的人。「助手」则输出他们的响应，然后通过文本到语音向用户播放。

这些双人自然对话包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然且有条理的对话。

在对这个数据集的观察中，我们发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。我们还发现，偏好也称为选项的特征，并不总是与智能助理的方式相匹配，或者与推荐网站的方式相匹配。换言之，你最喜爱的电影网站或服务上的过滤器，可能与你在寻求个人推荐时描述各种电影时使用的语言并不匹配。

有关 CCPE 数据集的详细信息，请参阅我们的研究论文(https://ai.google/research/pubs/pub48414)，该论文将在 2019 年话语与对话特别兴趣小组(https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special)年会上发布。

Taskmaster-1 数据集

在 Taskmaster-1 的对话框数据集中，已经累计了 13215 个基于任务的对话框，包含 7708 个书面表达以及 5507 个口语表达数据。该数据集内容覆盖了六个生活领域，包括：订购披萨，创建汽车维修预约，设置租车，订购电影票，订购咖啡饮料和预订餐厅。

面向任务的对话框

该数据集通过两个程而创建，每个程序都具有独特的优势。第一个涉及两个人口头交流的「Wizard-of-Oz」方法，其中受过训练的智能体和人互动以完成任务;而第二个是「自我对话」，其中由单人书面技术增加语料库大小和说话者多样性，包含了大约 7700 写入「自我对话」条目和约 5500 个双人口语对话。

对于书面对话，我们让人们根据每个任务概述的场景自己创建完整的对话，从而扮演用户和助手的角色。因此，虽然口语对话更接近地反映了会话语言，但书面对话既适当丰富又复杂，但更便宜且更容易收集。

我们不会将工作者限制在详细的脚本或小型知识库中，因此我们观察到与现有数据集相比，这一数据集包含更真实和多样化的对话。

我们还提供了几种基线模型，包括具有基准性能的最先进神经机器翻译架构以及定性人体评估。对话框标有 API 调用和参数，这是一种简单且经济有效的方法，可避免复杂注释模式的要求。对话模型和服务提供者 API 之间的抽象层允许给定模型与提供类似功能的多个服务交互。

与传统的，详细的策略相比，我们只关注每种类型的会话的 API 参数，而不仅仅是执行事务所需的变量。例如，在关于安排乘坐共享的对话框中，我们将「到」和「从」位置标记为汽车类型(经济、豪华、带游泳池等)。对于电影票，我们标记电影名称、剧院、时间、票数，有时还有屏幕类型(例如 3D 或标准)。语料库版本中都包含了完整的标签列表。

Taskmaster-1 数据集(https://ai.google/research/pubs/pub48484)相关内容，在 2019 年自然语言处理经验方法会议(https://www.emnlp-ijcnlp2019.org/)上出现的研究论文中进行了详细描述。

我们希望这些数据集对于研究界在对话系统和会话推荐中的实验和分析都是有用的。