可思数据-人工智能媒体资讯平台!可思数据-人工智能媒体资讯平台!

国内新闻文本语料数据

数据类型:图形图像 热度
★★★★★

文件类型: .zip     文件大小:642.4M

授权方式: 公共开源     发布时间:2019-01-27

数据介绍:
数据描述 :来自新闻网站2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息一共有10大类,统一整理到一个csv文件中。

 
数据格式: 页面URL 页面ID 页面标题 页面内容 


适用范围:用于机器学习分类算法的新闻分类数据,


格式说明:

数据格式为

dedecms.com

<doc>

织梦内容管理系统

<url>页面URL</url>

dedecms.com

<docno>页面ID</docno> dedecms.com

<contenttitle>页面标题</contenttitle>

织梦好,好织梦

<content>页面内容</content>

内容来自dedecms

</doc> 内容来自dedecms

注意:content字段去除了HTML标签,保存的是新闻正文文本

数据量:640M

内容来自dedecms

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
人工智能交流群扫码邀请
人工智能交流群扫码邀请

    最近关注
    热点内容
    热点图文