数据格式: 页面URL 页面ID 页面标题 页面内容
格式说明:
适用范围:用于机器学习分类算法的新闻分类数据,
格式说明:
数据格式为
dedecms.com
<doc> 织梦好,好织梦
<url>页面URL</url> 内容来自dedecms
<docno>页面ID</docno>
内容来自dedecms
<contenttitle>页面标题</contenttitle> 本文来自织梦
<content>页面内容</content> copyright dedecms
</doc>
dedecms.com
注意:content字段去除了HTML标签,保存的是新闻正文文本
数据量:640M
本文来自织梦