8种寻找机器学习数据集的方法
在训练机器学习模型时,找到合适的数据集一直是个棘手的问题。
近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。
通过这些方法,不仅能够找到大量的实验数据集及相关的描述和使用示例。在某些情况下,还会有用于训练数据集的算法代码。
以下,就是他介绍的8种方法:
1、Kaggle数据集

Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式。此外,你还可以在这里找到与每个数据集相关联的交互式笔记本Kernels,这些笔记本能够在浏览器中运行。
在这里,每个数据集都是一个小的交流社区,可以讨论数据,寻找一些公开的代码,或者在Kernels中创建自己的项目。
有许多数据科学家从不同的角度对数据集进行了分析。有时候,你还可以找到解决特定问题的算法代码。
传送门:https://www.kaggle.com/datasets
2、亚马逊数据集

这里有许多不同领域的数据集,比如公共交通、生态资源、卫星图像等等。
同时也提供了一个搜索框,来帮助你寻找数据集。伴随着数据集,也有相关的描述与用法示例。
数据集存储在AWS中,如果你正在使用AWS训练机器学习模型,会非常方便,数据集的传输速度非常快。
传送门:https://registry.opendata.aws/
3、UCI机器学习数据库

这个数据库里面有100个数据集。来自加州大学信息与计算机科学学院。
数据集已经按照机器学习问题进行了分类,你可以在这里找到单变量和多变量时间序列数据集;分类、回归或推荐系统的数据集。
而且,其中的一些数据集已经清理完毕,拿走就能使用。
传送门:https://archive.ics.uci.edu/ml/datasets.html
4、谷歌数据集搜索引擎

2018年9月份,谷歌推出了这项服务,可以按名称搜索数据集。目标是收集起来成千上万不同的数据集存储库。
相关报道:
Google数据集搜索神器上线,和搜索论文一样简单
传送门:https://toolbox.google.com/datasetsearch
5、微软数据集

2018年7月,微软推出“微软研究开放数据”。涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等等多个学科领域
数据集存储在云中,用于推动全球研究团体之间的协作。收集了一系列已发表的研究中使用的精确数据集。
传送门:https://msropendata.com/
6、公共数据集资源收集

按照不同的主题对近600个数据集进行了分类,一共涉及29个主题,比如生物学、经济学、教育学等等。大多数数据集都是免费的,不过在使用前,还是检查一下许可要求比较好。
传送门:https://github.com/awesomedata/awesome-public-datasets
7、政府数据集
与政府相关的数据集寻找起来也比较容易,许多国家都会公开各种数据,以推进政务的透明化处理。比如:
欧盟开放数据集:欧洲政府的数据集
https://data.europa.eu/euodp/data/dataset
美国政府数据集:(暂时无法使用)
https://www.data.gov/

中国国家统计局:http://www.stats.gov.cn/
8、计算机视觉数据

里面有各种用于计算机视觉研究数据集,可以通过特定的主题去查找数据集,比如语义分割、图像字幕、图像生成等等。也可以通过应用场景来查找数据集,比如自动驾驶汽车数据集。
传送门:https://www.visualdata.io/

时间:2019-01-22 23:20 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]论机器学习领域的内卷:不读PhD,我配不配找工
- [机器学习]机器学习基础图表:概念、原理、历史、趋势和算法
- [机器学习]分析了 600 多种烘焙配方,机器学习开发出新品
- [机器学习]2021年的机器学习生命周期
- [机器学习]物联网和机器学习促进企业业务发展的5种方式
- [机器学习]机器学习中分类任务的常用评估指标和Python代码实现
- [机器学习]机器学习和深度学习的区别是什么?
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]年终总结:2021年五大人工智能(AI)和机器学习(ML)发展趋势
相关推荐:
网友评论: