如何用10个大数据技术方案解决一个问题
数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技术可以处理大的(和流的)数据,最好是在分布式环境中。

Python现在很流行当然也有很多其他的选择。SQL大行其道,而其他一些老古董仍然存在。
本文试图为一个简单的挑战,提供10种不同技术编写的10个解决方案:

通过这些技术,使用Grouplens网站提供的两个CSV数据集列出十大最受欢迎的电影。
数据集

目标
我们将聚合收视率数据(u.data)来计算每个movie_id的平均收视率,并找到平均收视率最高的10部电影。

1. AWK

Step 1: Join the Datasets
Step 2: Sort, Cut and TR

Step 3: AWK
Step 4: Again AWK
Step 5: Sort, Head and TR
2. PERL


3. BASH


4. SQL(PostgreSQL)



5. Python with Pandas

6. MapReduce With MRJob in Python


7. Pig Latin

8. Hive




9. Spark with Scala

10. MongoDB




详细原文:https://dzone.com/articles/one-challenge-with-10-solutions

时间:2019-11-03 15:52 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: