19个数据科学项目的免费公共数据集
顺利完成数据科学项目对于从事这个行业者来说很重要,不仅能锻炼能力,同时可以作为就业面试时的经验,可以在面试过程中进行讨论,从而增加自己的竞争力。
所以找到一个合适、有趣的数据集很关键。
本文选择了不同类型和复杂程度的数据集,这些数据集是比较适合于第一个项目。(他们中的一些人也为研究项目工作!)这些数据集涵盖了各种来源:人口数据、经济数据、文本数据和公司数据。
免费的学生数据集
1、美国人口普查数据:https://www.census.gov/data.html
美国人口普查局公布了州、市甚至邮政编码级别的大量人口统计数据。对于那些对创建地理数据可视化感兴趣的学生来说,这是一个非常棒的数据集,可以在人口普查局的网站上访问。或者,可以通过API访问数据。使用该API的一个方便方法是通过choroplethr。总的来说,这些数据非常清晰和全面。
2、FBI犯罪数据:
https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-1
https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-2
美国联邦调查局犯罪数据是有趣的,是这个列表中最有趣的数据集之一。如果你对分析时间序列数据感兴趣,你可以用它来描绘20年间全国犯罪率的变化。或者,您可以从地理位置查看数据。
3、美国疾病控制与预防中心(CDC)死因:https://www.cdc.gov/datastatistics/index.html
疾病控制和预防中心维护着一个死因数据库 。数据几乎可以通过所有可以想象的方式进行细分:年龄,种族,年份等。
4、Medicare医院质量:http://seer.cancer.gov/faststats/selections.php?series=cancer
医疗保险和医疗补助服务中心(Centers for Medicare & Medicaid Services)在全美4,000多家经医疗认证的医院中维护着一个医疗质量数据库,提供了有趣的比较。
5、SEER癌症发病率:http://seer.cancer.gov/faststats/selections.php?series=cancer
美国政府也有关于癌症发病率的数据,再一次根据年龄、种族、性别、年份和其他因素进行细分。它来自国家癌症研究所的监测、流行病学和最终结果项目。
6、美国劳工统计局:http://www.bls.gov/data/
美国许多重要的经济指标(如失业率和通货膨胀率)都可以在劳工统计局的网站上找到。大部分数据可以按时间和地理位置进行分段。
7、经济分析局:http://www.bea.gov/national/index.htm
经济分析局也有国家和地区经济数据,包括国内生产总值和汇率。
8、IMF经济数据:http://data.imf.org/?sk=388DFA60-1D26-4ADE-B505-A05A558D9A42&sId=1479329328660
要获取全球金融统计数据和其他数据,请访问国际货币基金组织的网站。
9、道琼斯每周收益:http://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index
预测股票价格是数据分析和机器学习的主要应用。加州大学尔湾分校(University of California, Irvine)机器学习与智能系统中心(Center for Machine Learning and Intelligent Systems)提供的道琼斯指数(Dow Jones Index)周回报率是需要研究的相关数据之一。
10、英国政府网站data .gov.uk:https://data.gov.uk/
英国政府的官方数据门户网站提供数以万计的有关犯罪、教育、交通和健康等主题的数据集。
11、安然电子邮件:http://www.cs.cmu.edu/~enron/
安然公司倒闭后,大约50万封包含信息文本和元数据的免费电子邮件被公布。这个数据集现在很出名,为文本相关的分析提供了一个很好的试验场。您还可以通过该页面探索该数据集的其他研究用途。
12、Google图书Ngrams:http://aws.amazon.com/datasets/8172056142375670
:如果您对真正的海量数据感兴趣,Ngram viewer数据集将根据大量文本源按年计算单词和短语的频率。结果文件为2.2 TB。
13、联合国儿童基金会:https://data.unicef.org/
如果有关世界各地儿童生活的数据值得关注,那么联合国儿童基金会是最可靠的来源之一。该组织的公共数据集涉及营养、免疫和教育等方面。
14、Reddit评论:https://www.reddit.com/r/datasets/comments/65o7py/updated_reddit_comment_dataset_as_torrents/
Reddit发布了一个非常有趣的数据集,记录了网站上的每一条评论。它有超过1tb的未压缩数据,所以如果你想要一个更小的数据集与Kaggle一起工作,可以在Kaggle的网站上看到2015年5月的评论。
15、维基百科:https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia
除了维基媒体基金会的其他项目外,维基百科还提供下载英文文章的说明。
16、Lending Club:https://www.lendingclub.com/info/download-data.action
Lending Club提供它拒绝的贷款申请的数据,以及它发放的贷款的表现。自由数据集既适用于分类技术(给定的贷款将会违约),也适用于回归(给定的贷款将会偿还多少)。
17、沃尔玛:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data
沃尔玛公布了美国各地45家商店的历史销售数据。
18、Airbnb:http://insideairbnb.com/get-the-data.html
Airbnb提供世界各地数十个城市Airbnb房源的不同数据集。
19、Yelp:https://www.yelp.com/dataset/challenge
Yelp维护一个用于个人、教育和学术目的的免费数据集。它包括了来自10个大都市地区18.9万家企业的600万条评论。欢迎学生参加Yelp的数据集挑战。
时间:2019-12-07 23:02 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]阿里开源3D-FUTURE数据集 建模时间可从3小时降至10秒
- [机器学习]MIT研究人员发现 ImageNet 数据集存在系统性缺陷
- [机器学习]NVIDIA针对数据不充分数据集进行生成改进,大幅
- [机器学习]数据集永久下架,微软不是第一个,MIT 也不是最
- [机器学习]NVIDIA针对数据不充分数据集进行生成改进,大幅
- [机器学习]微软新作,ImageBERT虽好,千万级数据集才是亮点
- [机器学习]谷歌刚刚发布了2500万个免费数据集,了解一下
- [机器学习]亚马逊研究人员使用NLP数据集来改善Alexa的答案
- [机器学习]如何为数据集选择正确的聚类算法
- [机器学习]视频分类 / 行为识别研究综述,从数据集到方法
相关推荐:
网友评论: