行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据挖掘 正文

Spark Streaming应用与实战全攻略(Ⅰ)

Spark Streaming应用与实战系列包括以下六部分内容:
•  背景与架构改造
•  通过代码实现具体细节,并运行项目
•  对Streaming监控的介绍以及解决实际问题
•  对项目做压测与相关的优化
•  Streaming持续优化之HBase
•  管理Streaming任务

本篇为第一部分,包括背景与架构改造、通过代码实现具体细节并运行项目、对Streaming监控的介绍以及解决实际问题、对项目做压测与相关的优化。

一、背景与架构改造

1.1 问题描述

有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下:

 

图片描述

 

架构改造之前

以对于以上的架构存在一些问题,我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase,中间并没做任何缓冲,要是HBase出现了问题整个集群都完蛋,没法写入数据,数据还丢失,HBase这边压力也相当大,针对这一点,对入库HBase这个阶段做了一些改造。

1.2 架构改造

改造后的架构,爬虫通过接口服务,入库到Kafka,Spark streaming去消费kafka的数据,入库到HBase.核心组件如下图所示:

 

图片描述

 

架构改造图

为什么不直接入库到HBase,这样做有什么好处?

缓解了HBase这边峰值的压力,并且流量可控;
HBase集群出现问题或者挂掉,都不会照成数据丢失的问题;
增加了吞吐量。

1.3 为什么选择Kafka和Spark streaming

由于Kafka它简单的架构以及出色的吞吐量;
Kafka与Spark streaming也有专门的集成模块;
Spark的容错,以及现在技术相当的成熟。

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
最新文章
SEM推广服务
热门文章
热点图文

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部