关于数据集的一些注释。
1)unprocessed.tar.gz包含原始数据。
2)processed.acl.tar.gz包含预处理和平衡的数据。也就是说,Blitzer等人的格式。(ACL 2007)
3)processed.realvalued.tar.gz包含预处理和平衡的数据,但具有星数,而不仅仅是正数或负数。也就是说,Mansour等人的格式。(NIPS 2009)
预处理数据是每个文档一行,每行格式为:
feature:<count> .... feature:<count> #label#:<label>
标签始终位于每个文件的末尾线。
copyright dedecms
4)每个目录对应一个域。每个目录包含几个文件,我们简要描述:
all.review - 该域名的所有评论,原始格式为
positive.review - 正面评论
negative.review - 否定评论
unlabeled.review - 未标记的评论
processed.review - 预处理评论(见下文)
processed.review.balanced - 预处理的评论,在正面和负面之间平衡。
5)虽然正面和负面文件包含正面和负面评论,但这些不一定是任何引用文献中使用的分割。它们只是初始分裂。
6)每个(未处理的)文件包含用于编码评论的伪XML方案。大多数领域都是自我解释的。评论有一个独特的ID字段,不是很独特。如果它有两个唯一的id字段,请忽略仅包含数字的字段。
此情绪数据集已用于多篇论文:
John Blitzer,Mark Dredze,Fernando Pereira。传记,宝莱坞,繁荣盒和搅拌器:用于情感分类的领域适应。计算语言学协会(ACL),2007年。 织梦好,好织梦
John Blitzer,Koby Crammer,Alex Kulesza,Fernando Pereira和Jenn Wortman。学习领域适应领域。神经信息处理系统(NIPS),2008。
Mark Dredze,Koby Crammer和Fernando Pereira。置信加权线性分类。国际机器学习会议(ICML),2008年。
Yishay Mansour,Mehryar Mohri和Afshin Rostamizadeh。具有多个源的域适应。神经信息处理系统(NIPS),2009年。
如果您将此数据用于您的研究或出版物,请引用第一篇(ACL 2007)论文作为数据的参考。另外,请给我一行,以便我知道您发现数据有用。