20news 新闻数据
数据介绍:
20个新闻组数据集20个新闻组数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中均匀分布(几乎)。据我所知,它最初是由Ken Lang收集的,可能是他的Newsweeder:学习过滤netnews论文,尽管他没有明确提到这个集合。20个新闻组集合已经成为机器学习技术的文本应用实验的流行数据集,例如文本分类和文本聚类。 本文来自织梦
copyright dedecms
组织数据被组织成20个不同的新闻组,每个新闻组对应于不同的主题。一些新闻组彼此密切相关(例如comp.sys.ibm.pc.hardware / comp.sys.mac.hardware),而其他新闻组则非常不相关(例如 misc.forsale / soc.religion.christian)。以下是20个新闻组的列表,根据主题划分(或多或少): 本文来自织梦
数据这里提供的数据是.tar.gz包。你需要tar和gunzip来打开它们。捆绑中的每个子目录代表一个新闻组; 子目录中的每个文件都是发布到该新闻组的某个新闻组文档的文本。 织梦好,好织梦
以下是数据集的三个版本。第一个(“19997”)是原始的,未经修改的版本。第二个(“bydate”)按日期排序为训练(60%)和测试(40%)集,不包括交叉发布(重复),不包括新闻组识别标题(外部参照,新闻组,路径,后续行动) -至今)。第三个(“18828”)不包括交叉发布,仅包含“发件人”和“主题”标题。 copyright dedecms
[7/3/07]我最初将bydate版本列为包含18941个文档。我发现正确的计数是18846,其中彩虹跳过22.所以matlab版本(下面)代表18824个文档。但是,我的rainbow2matlab.py脚本会删除空白和单字文档,其中有50个后彩虹处理,所以你在matlab / octave版本中只能找到18774个条目。 dedecms.com MATLAB /八度下面是20news-bydate数据集的处理版本,它易于作为稀疏矩阵读入Matlab / Octave:
有关此数据集的其他信息来源包括 dedecms.com
特别声明: ¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用来源。 ¤ 版权归作者及所在组织所有。 ¤ 如用于商业用途,请联系版权所有人。 ¤ 本站数据来源于网络如有侵权请联系我们。 |
- 上一篇:Amazon 无锁手机用户评论数据
- 下一篇:芝加哥汽车超速数据