24个提高数据技能的终极数据科学项目
数据科学项目为初学者在该领域开启职业生涯提供了一个方法。不仅可以通过应用它来学习数据科学,还可以在简历上展示你的项目经历!
如今,越来越多的数据相关工作招聘要求要有相关的经验。如果你没有任何东西可以展示给他们,那么你很有可能就会错过这个工作。下面是来自不同领域的各种数据集和项目处理方法。
我们将这个列表分为三个层次,即:
初级水平:这个水平由数据集组成,使用起来相当容易,不需要复杂的数据科学技术。可以使用基本的回归或分类算法来解决它们。而且,这些数据集有足够的开放教程,可以帮助入门。在这个列表中,我们还提供了一些教程来帮助入门。你也可以查看AV的“数据科学入门”课程。
中级水平:这一水平包含了更具挑战性的数据集。它由中、大型数据集组成,这些数据集需要一定的模式识别技能。
高级水平:这个水平是最适合的人谁了解先进的主题,如神经网络,深度学习,推荐系统等,高维数据集也在这里。同时,这也是一个富有创造力的时期。看看最好的数据科学家是如何把创造力带到他们的工作和代码中的。
Beginner Level
1.Iris数据集
问题:根据可用属性预测花的类。
获取数据:https://archive.ics.uci.edu/ml/datasets/Iris
教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r
2. Loan Prediction Dataset
贷款的预测数据集
问题:预测贷款是否会被批准。
获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
3.Bigmart销售数据集
问题:预测商店的销售额。
获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/
教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/
4. 波士顿住房数据集
预测业主自有住房的中位数。
获取数据:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/
5. 时间序列分析数据集
预测一种新的交通方式的交通流量。
获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/
教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about
6. 葡萄酒质量数据集
预测葡萄酒的质量。
获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality
教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
7.Turkiye 学生评价数据集
使用分类和聚类技术来处理数据。
获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation
教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf
8.身高和体重数据集
预测一个人的身高或体重。
获取数据:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights
教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html
Intermediate Level
1. 黑色星期五的数据集
预测营业额
获取数据:https://datahack.analyticsvidhya.com/contest/black-friday/
教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986
2. 活动识别数据集
预测一个人的活动类别。
获取数据:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html
3.文本挖掘数据集
根据文档的标签对文档进行分类。
获取数据:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007
教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf
4. 访问历史数据集
预测用户的类别,来自美国的一个自行车共享服务。
获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/
教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/
5. 歌曲数据集
预测歌曲的发行年份。
获取数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD
教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf
6. 人口普查和收入数据集
预测美国人口和收入。
获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/
教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf
7. 电影镜头数据集
向用户推荐新电影。
获取数据:http://grouplens.org/datasets/movielens/1m/
教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/
8. Twitter分类数据集
识别哪些是仇恨推文,哪些不是。
获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
教程:https://github.com/abdulfatir/twitter-sentiment-analysis
Advanced Level
1、图像识别数据集
从图像中识别数字。
获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/
2. 城市合理的分类
获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
3.Vox名人数据集
从音频中分类声音的类型。
获取数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
4. ImageNet数据集
要解决的问题取决于您下载的图像类型。
获取数据:http://image-net.org/download-imageurls
教程:http://image-net.org/download-imageurls
5. 芝加哥犯罪数据集
预测犯罪类型。
获取数据:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
6. 印度演员年龄数据集
检测演员的年龄。
获取数据:http://image-net.org/download-imageurls
教程:http://image-net.org/download-imageurls
7. 推荐引擎的数据集
根据用户的当前状态预测解决问题所需的时间。
获取数据:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
8. VisualQA数据集
使用深度学习技术来回答关于图像的开放式问题。
获取数据:http://www.visualqa.org/
教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/
时间:2019-10-14 19:37 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: