行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据下载 > 文本语料 正文

Multi-Domain Sentiment Dataset--多域情感数据集

时间:2019-08-15
数据类型:文本语料 热度
★★★☆☆

文件类型: .zip              文件大小:1.5 GB

授权方式: 其它     发布时间:2019-08-15

数据来源:Mark Dredze             界面语言:英文

数据介绍:
多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只有几百个。评论包含星级(1至5星),如果需要可以转换为二进制标签。此页面包含有关数据的一些说明。如果您有任何疑问,请发送电子邮件至Mark Dredze或John Blitzer。 

关于数据集的一些注释。 

1)unprocessed.tar.gz包含原始数据。
2)processed.acl.tar.gz包含预处理和平衡的数据。也就是说,Blitzer等人的格式。(ACL 2007)
3)processed.realvalued.tar.gz包含预处理和平衡的数据,但具有星数,而不仅仅是正数或负数。也就是说,Mansour等人的格式。(NIPS 2009)


预处理数据是每个文档一行,每行格式为: 

feature:<count> .... feature:<count> #label#:<label> 

标签始终位于每个文件的末尾线。

copyright dedecms



4)每个目录对应一个域。每个目录包含几个文件,我们简要描述:
all.review - 该域名的所有评论,原始格式为
positive.review - 正面评论
negative.review - 否定评论
unlabeled.review - 未标记的评论
processed.review - 预处理评论(见下文)
processed.review.balanced - 预处理的评论,在正面和负面之间平衡。

5)虽然正面和负面文件包含正面和负面评论,但这些不一定是任何引用文献中使用的分割。它们只是初始分裂。

6)每个(未处理的)文件包含用于编码评论的伪XML方案。大多数领域都是自我解释的。评论有一个独特的ID字段,不是很独特。如果它有两个唯一的id字段,请忽略仅包含数字的字段。

此情绪数据集已用于多篇论文:

John Blitzer,Mark Dredze,Fernando Pereira。传记,宝莱坞,繁荣盒和搅拌器:用于情感分类的领域适应。计算语言学协会(ACL),2007年。 织梦好,好织梦

John Blitzer,Koby Crammer,Alex Kulesza,Fernando Pereira和Jenn Wortman。学习领域适应领域。神经信息处理系统(NIPS),2008。

Mark Dredze,Koby Crammer和Fernando Pereira。置信加权线性分类。国际机器学习会议(ICML),2008年。

Yishay Mansour,Mehryar Mohri和Afshin Rostamizadeh。具有多个源的域适应。神经信息处理系统(NIPS),2009年。 

如果您将此数据用于您的研究或出版物,请引用第一篇(ACL 2007)论文作为数据的参考。另外,请给我一行,以便我知道您发现数据有用。 
下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
转发量:


人工智能交流群扫码邀请
人工智能交流群扫码邀请
上一篇:reddit 2.5 million 新闻数据
下一篇:没有了

相关文章:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部
扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部