Multi-Domain Sentiment Dataset--多域情感数据集_可思数据-人工智能媒体资讯平台！

Multi-Domain Sentiment Dataset--多域情感数据集

时间：2019-08-15

数据类型：文本语料热度

咨询客服

数据定制

文件类型： .zip 文件大小：1.5 GB

授权方式： 其它 发布时间：2019-08-15

数据来源：Mark Dredze 界面语言：英文

数据介绍：

多域情感数据集包含从Amazon.com获取的许多产品类型（域）的产品评论。一些域名（书籍和DVD）有成千上万的评论。其他（乐器）只有几百个。评论包含星级（1至5星），如果需要可以转换为二进制标签。此页面包含有关数据的一些说明。如果您有任何疑问，请发送电子邮件至Mark Dredze或John Blitzer。

关于数据集的一些注释。

1）unprocessed.tar.gz包含原始数据。
2）processed.acl.tar.gz包含预处理和平衡的数据。也就是说，Blitzer等人的格式。（ACL 2007）
3）processed.realvalued.tar.gz包含预处理和平衡的数据，但具有星数，而不仅仅是正数或负数。也就是说，Mansour等人的格式。（NIPS 2009）

预处理数据是每个文档一行，每行格式为：

feature：<count> .... feature：<count> #label＃：<label>

标签始终位于每个文件的末尾线。

4）每个目录对应一个域。每个目录包含几个文件，我们简要描述：
all.review - 该域名的所有评论，原始格式为
positive.review - 正面评论
negative.review - 否定评论
unlabeled.review - 未标记的评论
processed.review - 预处理评论（见下文）
processed.review.balanced - 预处理的评论，在正面和负面之间平衡。

5）虽然正面和负面文件包含正面和负面评论，但这些不一定是任何引用文献中使用的分割。它们只是初始分裂。

6）每个（未处理的）文件包含用于编码评论的伪XML方案。大多数领域都是自我解释的。评论有一个独特的ID字段，不是很独特。如果它有两个唯一的id字段，请忽略仅包含数字的字段。

此情绪数据集已用于多篇论文：

John Blitzer，Mark Dredze，Fernando Pereira。传记，宝莱坞，繁荣盒和搅拌器：用于情感分类的领域适应。计算语言学协会（ACL），2007年。织梦好，好织梦

John Blitzer，Koby Crammer，Alex Kulesza，Fernando Pereira和Jenn Wortman。学习领域适应领域。神经信息处理系统（NIPS），2008。

Mark Dredze，Koby Crammer和Fernando Pereira。置信加权线性分类。国际机器学习会议（ICML），2008年。

Yishay Mansour，Mehryar Mohri和Afshin Rostamizadeh。具有多个源的域适应。神经信息处理系统（NIPS），2009年。

如果您将此数据用于您的研究或出版物，请引用第一篇（ACL 2007）论文作为数据的参考。另外，请给我一行，以便我知道您发现数据有用。

下载地址：

下载地址

exaa

特别声明：