数据挖掘
-
一篇文章掌握Sql-On-Hadoop核心技术
在众多的 SQL On Hadoop 系统中,有必要对其进行一个分类。一般而言,用户更关心的是查询时延,根据用户提交查询到结果返回的时间长短,...
2018-10-09 22:47:42 -
Spark on Angel:Spark机器学习的核心加速器
Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问...
2018-10-09 22:47:42 -
干货:Spark性能优化指南
本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。...
2018-10-09 22:47:42 -
大数据Hadoop之 YARN认识
Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为...
2018-10-09 22:47:42 -
一分钟让你知道Hadoop是什么
hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现...
2018-10-09 22:47:42 -
Spark Streaming场景应用- Spark Streaming计算模型及监控
Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。...
2018-10-09 22:47:42 -
浅谈:Hadoop基础之MapReduce
Map输出的结果将会被序列化到缓冲区中,元数据将被存储在缓冲区中;当Map持续有输出结果时,序列化的缓冲区或者元数据超出了临界值,...
2018-10-09 22:44:42 -
嫌Python太慢?并行运算Process Pools三行代码给你
Python绝对是处理数据或者把重复任务自动化的绝佳编程语言。要抓取网页日志?或者要调整一百万张图片?总有对应的Python库让你轻松完成任务...
2018-10-09 22:44:42 -
Hadoop常见错误和处理方式
常见问题及处理 mysql版本,必须是MYSQL5 1。查询办法mysqladmin version 在建立hive数据库的时候,最好是:create database hive; oozie的数据库,同样:...
2018-10-09 22:44:42 -
解析:Hadoop2和Hadoop1的区别
早期发行的Hadoop1版本将所有HDFS目录和文件的元数据存储到一个NameNode单点。整个集群的数据状态取决于这个单点的成败。...
2018-10-09 22:44:42 -
HBase原理 – 所有Region切分的细节都在这里了
这篇文章将会对这些细节进行基本的说明,一方面可以让大家对HBase中Region自动切分有更加深入的理解,另一方面如果想实现类似的功能也可...
2018-10-09 22:44:42 -
深入解析Spark中的RPC
Spark是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信。本文主要介绍不同的Spark组件之间是如何通...
2018-10-09 22:44:42 -
下一阶段:Hadoop生态系统及常用组件
Hadoop我们已经用了许多篇幅来介绍了,所以今天我们就来总结一下,顺便将一些不常用的插件也简单地介绍一下。...
2018-10-09 22:44:42 -
KSQL,用于Apache Kafka的流数据SQL引擎
Apache Kafka是一个分布式的、分区的、多复本的日志提交服务,使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。...
2018-10-09 22:44:42 -
深入解析Spark中的RPC
Spark是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信。本文主要介绍不同的Spark组件之间是如何通...
2018-10-09 22:44:42 -
大数据Hadoop生态圈:Pig
Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模...
2018-10-09 22:44:42 -
Kafka数据可靠性深度解读
Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目...
2018-10-09 22:44:42 -
分布式数据库的存储设计改进
对比下分布式数据库,如果把记录对应的节点信息发送给 Master,那就不可想象了。所以在分布式数据库中 hdfs 的存储策略不可取。同时最近...
2018-10-09 22:44:42 -
Apache Hadoop 2.8 完全分布式集群搭建超详细过程
最近在自己的笔记本电脑上搭建了Apache Hadoop分布式集群,采用了最新的稳定版本2 8,并配置了NameNode、ResourceManager的HA高可用,方便日常对...
2018-10-09 22:44:42 -
用CombineFileInputFormat优化Hadoop小文件
本文将介绍如何在MapReduce作业层面上将大量的小文件合并,以此减少运行作业的Map Task的数量;关于如何在HDFS上合并这些小文件,请参见《...
2018-10-09 22:44:42 -
Hadoop学习常见问题及解决方法(一)
搭建Hadoop单节点集群遇到namenode或datanode启动不起来的问题。可能原因:多次格式化namenode导致datanode与namenode之间的id不一致...
2018-10-09 22:44:42 -
Hadoop常见问题及解决方法(二)
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。以下是Hadoop时常见问题及解决方法:...
2018-10-09 22:44:42 -
Hadoop常见问题及解决方法(三)
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。以下是Hadoop时常见问题及解决方法:...
2018-10-09 22:44:42 -
详解Windows7下使用Eclipse搭建hadoop开发环境
在Linux下使用安装Eclipse来进行hadoop应用开发,但是大部分Java程序员对linux系统不是那么熟悉,所以需要在windows下开发hadoop程序,所以经过试...
2018-10-09 22:44:42 -
如何基于Spark Streaming构建实时计算平台
随着互联网技术的迅速发展,用户对于数据处理的时效性、准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警...
2018-10-09 22:44:42 -
大数据之Hadoop初识篇
开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理...
2018-10-09 22:44:42 -
遇到海量数据时怎样处理?
本文将介绍一些处理海量数据问题的常见方法,也可以说是对海量数据的处理方法进行了一个简单的总结。...
2018-10-09 22:44:42 -
Hbase 技术细节笔记(上)
最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在...
2018-10-09 22:44:42 -
10道Hadoop面试真题及解题思路
搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。...
2018-10-09 22:44:42 -
Apache Spark常见的三大误解
最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明...
2018-10-09 22:44:42 -
大数据分析技术与实战之Spark Streaming
随着信息技术的迅猛发展,数据量呈现出爆炸式增长趋势,数据的种类与变化速度也远远超出人们的想象,因此人们对大数据处理提出了更...
2018-10-09 22:44:42 -
搭建Spark所遇过的坑
出现此类问题有很多种, 当时遇到这问题的因为是在spark未改动的情况下, 更换了Hive的版本导致版本不对出现了此问题,...
2018-10-09 22:42:37 -
基于Kafka Streams构建广告消耗预测系统
本文将会先解释什么是超投,然后分享一下我们是如何使用 Kafka Streams 构造预测系统来提供近实时的预测消耗数据、从而降低超投的。...
2018-10-09 22:42:37 -
深度解析:Spark 优于 Hadoop 吗?
对于任何一个进入大数据世界的人来讲,大数据和Hadoop 就成了同义词。随着人们学习了大数据生态系统及其工具和运作原理,他们更能理解...
2018-10-09 22:42:37 -
号称世界最快句法分析器,Python高级自然语言处
spaCy是Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。...
2018-10-09 22:42:37