文本语料
-
Multi-Domain Sentiment Dataset--多域情感数据集
多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只有几百个...
2019-08-15 23:12:11 -
reddit 2.5 million 新闻数据
美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8月15日至20日期...
2019-08-15 22:58:03 -
Twitter-dataset数据集
ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化,以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息。 数据集...
2019-08-15 22:50:44 -
JRC Names 实体专有名词库
什么是JRC名称? JRC-Names是一个高度多语言的命名实体资源,用于个人和组织名称(称为实体)。它包含大量名称列表及其多种拼写变体(单...
2019-08-15 22:37:59 -
WikiText 英语词库数据
WikiText英语词库数据(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText长期依赖语言建模数据集是一个包含1亿个词汇的英文词库数据,这些...
2019-08-15 22:17:43 -
芝加哥汽车超速数据
2014 - 2016年芝加哥的摄像机违规行为, 芝加哥街头摄像机记录的每日限速违规行为。此数据集反映了作为自动速度执行计划的一部分,安装...
2019-08-14 13:59:19 -
20news 新闻数据
20个新闻组数据集 20个新闻组数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中均匀分布(几乎)。据我所知,它最初是由Ken...
2019-08-14 13:51:10 -
Amazon 无锁手机用户评论数据
Amazon无锁手机评论数据是一个商品评论数据,抓取了40万条亚马逊网站上无锁移动手机的价格、用户评分、评论等数据。...
2019-08-14 13:41:01 -
斯坦福问答数据集
日常生活中,我们常常通过参与包含一系列问答的对话获取信息。想让机器帮助我们收集信息,就需要让它具备回答对话中出现的问题的能...
2019-08-14 13:32:35