行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据挖掘 正文

如何用10个大数据技术方案解决一个问题

数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技术可以处理大的(和流的)数据,最好是在分布式环境中。

 

 Python现在很流行当然也有很多其他的选择。SQL大行其道,而其他一些老古董仍然存在。

本文试图为一个简单的挑战,提供10种不同技术编写的10个解决方案:

 

 

通过这些技术,使用Grouplens网站提供的两个CSV数据集列出十大最受欢迎的电影。

数据集

 

 

目标

我们将聚合收视率数据(u.data)来计算每个movie_id的平均收视率,并找到平均收视率最高的10部电影。

 

 

1. AWK

 

 

Step 1: Join the Datasets

Step 2: Sort, Cut and TR

 

 

Step 3: AWK

Step 4: Again AWK

Step 5: Sort, Head and TR

2. PERL

 

 

 

 

3. BASH

 

 

4. SQL(PostgreSQL)

 

 

 

 

 

 

5. Python with Pandas

 

 

6. MapReduce With MRJob in Python

 

 

7. Pig Latin

 

 

8. Hive

 

 

 

 

 

 

 

 

9. Spark with Scala

 

 

10. MongoDB

 

 

 

 

 

 

 

 

详细原文:https://dzone.com/articles/one-challenge-with-10-solutions

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部