行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据下载 > 文本语料 正文

reddit 2.5 million 新闻数据

时间:2019-08-15
数据类型:文本语料 热度
★★★☆☆

文件类型: .zip              文件大小:429.15 MB

授权方式: 其它     发布时间:2019-08-15

数据来源:未知             界面语言:英文

数据介绍:
美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8月15日至20日期间从reddit提取。

 

这是什么?

这是来自reddit的热门帖子的数据集。它包含来自前2,500个子评价的前1,000个历史帖子,总共有250万个帖子。顶级子订单由订户数确定,位于清单文件中。 内容来自dedecms

这些数据是在2013年8月15日至20日期间提取的。

织梦好,好织梦

每个文件都是一个CSV,其相关的subreddit作为其文件名。每个CSV文件都包含一个标题行。 织梦好,好织梦

 

dedecms.com

这有什么用?

这是一个简单的例子:这是Serendipity上最受投票的域名的细分。(是的,作为饼图。) 内容来自dedecms

使用TF-IDF找到subreddit的重要术语。做语义分析等。 copyright dedecms

 

内容来自dedecms

下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
转发量:


人工智能交流群扫码邀请
人工智能交流群扫码邀请

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部
扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部