行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据下载 > 文本语料 正文

20news 新闻数据

时间:2019-08-14
数据类型:文本语料 热度
★★★☆☆

文件类型: .zip              文件大小:未知

授权方式: 其它     发布时间:2019-08-14

数据来源:未知             界面语言:英文

数据介绍:

20个新闻组数据集

20个新闻组数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中均匀分布(几乎)。据我所知,它最初是由Ken Lang收集的,可能是他的Newsweeder:学习过滤netnews论文,尽管他没有明确提到这个集合。20个新闻组集合已经成为机器学习技术的文本应用实验的流行数据集,例如文本分类和文本聚类。

织梦内容管理系统

 

dedecms.com

组织

数据被组织成20个不同的新闻组,每个新闻组对应于不同的主题。一些新闻组彼此密切相关(例如comp.sys.ibm.pc.hardware / comp.sys.mac.hardware),而其他新闻组则非常不相关(例如 misc.forsale / soc.religion.christian)。以下是20个新闻组的列表,根据主题划分(或多或少):

本文来自织梦

comp.graphics 
comp.os.ms-windows.misc 
comp.sys.ibm.pc.hardware 
comp.sys.mac.hardware 
comp.windows.x
rec.autos 
rec.motorcycles 
rec.sport.baseball 
rec.sport.hockey
sci.crypt 
sci.electronics 
sci.med 
sci.space
misc.forsale talk.politics.misc 
talk.politics.guns 
talk.politics.mideast
talk.religion.misc 
alt.atheism 
soc.religion.christian

数据

这里提供的数据是.tar.gz包。你需要tar和gunzip来打开它们。捆绑中的每个子目录代表一个新闻组; 子目录中的每个文件都是发布到该新闻组的某个新闻组文档的文本。 织梦好,好织梦

以下是数据集的三个版本。第一个(“19997”)是原始的,未经修改的版本。第二个(“bydate”)按日期排序为训练(60%)和测试(40%)集,不包括交叉发布(重复),不包括新闻组识别标题(外部参照,新闻组,路径,后续行动) -至今)。第三个(“18828”)不包括交叉发布,仅包含“发件人”和“主题”标题​​。

dedecms.com

  • 20news-19997.tar.gz - 原始20个新闻组数据集
  • 20news-bydate.tar.gz - 按日期排序的20个新闻组; 删除重复和一些标题(18846文档)
  • 20news-18828.tar.gz - 20新闻组; 删除重复项,仅“From”和“Subject”标题(18828文档)
我推荐“bydate”版本,因为交叉实验比较更容易(在训练/测试集选择中没有随机性),新闻组识别信息已被删除,并且它更加真实,因为列车和测试集在时间上是分开的。

[7/3/07]我最初将bydate版本列为包含18941个文档。我发现正确的计数是18846,其中彩虹跳过22.所以matlab版本(下面)代表18824个文档。但是,我的rainbow2matlab.py脚本会删除空白和单字文档,其中有50个后彩虹处理,所以你在matlab / octave版本中只能找到18774个条目。

本文来自织梦

MATLAB /八度

下面是20news-bydate数据集的处理版本,它易于作为稀疏矩阵读入Matlab / Octave:
  • 20news-bydate-matlab.tgz
你会发现六个文件:
  • train.data
  • train.label
  • train.map
  • 测试数据
  • test.label
  • test.map
.data文件的格式为“docIdx wordIdx count”。.label文件只是标签ID的列表。.map文件从标签ID映射到标签名称。 Rainbow用于lex数据文件。我使用以下两个脚本来生成数据文件:
  • lexData.sh
  • rainbow2matlab.py
[已添加1/14/08]以下文件包含索引数据的词汇表。行号对应于单词的索引号---第一行的单词是单词#1,第二行的单词是单词#2,等等。
  • vocabulary.txt

有关此数据集的其他信息来源包括 织梦内容管理系统

  • Tom Mitchell 对他的机器学习教科书的网络补充。
  • 该CMU文本学习小组
  • 该UCI KDD 20个新闻组条目。
下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
转发量:


人工智能交流群扫码邀请
人工智能交流群扫码邀请

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部
扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部