数据挖掘
-
一条数据的HBase之旅,简明HBase入门教程
一些常见的HBase新手问题:什么样的数据适合用HBase来存储?然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉?...
2018-10-09 22:31:08 -
Python数据预处理:使用Dask和Numba并行化加速
如果你善于使用Pandas变换数据、创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作。...
2018-10-09 22:31:08 -
在CentOS中搭建Hadoop
搭建说明:第一次搭建 hadoop 的小伙伴,请严格按照文章中的软件环境和步骤搭建,不一样的版本都可能会导致问题。...
2018-10-09 22:31:08 -
java操作HBase进行数据的添加和查询
最近项目中使用了hadoop,这里记录一下使用java操作HBase的一些代码供读者参考...
2018-10-09 22:31:08 -
Spark核心技术原理透视--Spark运行模式
通过Spark运行原理的讲解大家了解了Spark在底层的运行,那Spark的运行模式又是什么样的呢?通过本文以下的讲解大家可以详细的学习了解。...
2018-10-09 22:31:08 -
python开发环境搭建
虽然网上有很多python开发环境搭建的文章,不过重复造轮子还是要的,记录一下过程,方便自己以后配置,也方便正在学习中的同事配置他...
2018-10-09 22:31:08 -
从扩线查询能力分析分布式图数据库Titan的设计改
本文先简单介绍了图数据库的发展趋势,而后重点介绍了分布式图数据库Titan,围绕图数据库的典型查询(扩线查询)场景,分析了Titan在设计...
2018-10-09 22:31:08 -
Sqoop数据导入到HBase遇上的问题及解决方法
将 tmp sqoop-hadoop compile 文件夹下的 detects jar包 放到sqoop安装目录lib下。重新执行即可。确实重新运行好了...
2018-10-09 22:31:08 -
如何在Python中从零开始实现随机森林
随机森林是套袋(方法)的延伸,除了基于多个测试数据样本构建树木之外,它还限制了可用于构建树木的特征,使得树木间具有差异。这反过...
2018-10-09 22:31:08 -
TensorFlow发布面向JavaScript开发者的机器学习框架
据介绍,在过去的两年中,TensorFlow 不断更新,不断改善,逐渐成为社区内最为流行的深度学习框架。下图是从开源以来,TensorFlow 的重大更...
2018-10-09 22:31:08 -
Apache Spark统一内存管理模型详解
本文将对 Spark 的内存管理模型进行分析,下面的分析全部是基于 Apache Spark 2 2 1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代...
2018-10-09 22:31:08 -
Hadoop中理论与工程的错位
Hadoop是当前重要的大数据计算平台,它试图摒弃传统数据库的理念,重新构建一套新的大数据体系。但是,这并不是件很容易的事,在Hado...
2018-10-09 22:31:08 -
54个大数据hadoop面试经典题
参考下面的M R系统的场景:HDFS 块大小为64MB;输入类型为FileInputFormat;有三个文件大小分别是:...
2018-10-09 22:31:08 -
Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
4月6日,Apache Hadoop 3 1 0 正式发布了,Apache Hadoop 3 1 0 是2018年 Hadoop-3 x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,...
2018-10-09 22:31:08 -
Spark 以及 spark streaming 核心原理及实践
本文依次从spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环境搭建等方面进行介绍,希望对大家有所帮助。...
2018-10-09 22:31:08 -
spark性能优化:数据倾斜调优
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各...
2018-10-09 22:27:56 -
Python实践:seaborn的散点图矩阵(Pairs Plots)可视
如何快速创建强大的可视化探索性数据分析,这对于现在的商业社会来说,变得至关重要。今天我们就来,谈一谈如何使用python来进行数据...
2018-10-09 22:27:56 -
Hadoop YARN容错机制
在现实情况中,用户代码错误不断,进程崩溃,机器故障等情况均容易造成任务失败。hadoop最主要的好处之一就是它能处理此类故障并能够...
2018-10-09 22:27:56 -
Spark Streaming 中管理 Kafka Offsets 的几种方式
Spark Streaming集成了Kafka允许用户从Kafka中读取一个或者多个topic的数据。一个Kafka topic包含多个存储消息的分区(partition)。每个分区中的消息是...
2018-10-09 22:27:56 -
大数据之Spark基础篇,核心RDD特征分析讲解
RDD(Resilient Distributed Datasets)弹性分布式数据集,是分布式内存的一个抽象概念。我们可以抽象的代表对应一个HDFS上的文件,但是他实际上是...
2018-10-09 22:27:56 -
hadoop之 hadoop 机架感知
我们已经很熟悉这个5个进程,但是在使用的过程中,我们经常遇到问题,那么该如何入手解决这些问题。那么首先我们需了解的他们的原理...
2018-10-09 22:27:56 -
hadoop+Spark+hbase集群动态增加节点
如果一个集群资源不够用需要扩展的时候怎么办,那么是可以不关机动态扩展的,具体操作如下:...
2018-10-09 22:27:56 -
大数据-Hive学习从这里开始
Hive是基于Hadoop HDFS分布式文件系统的分布式数据仓库架构。它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)工具,数据存储...
2018-10-09 22:27:56 -
大数据-Hadoop小文件问题解决方案
HDFS中小文件是指文件size小于HDFS上block(dfs block size)大小的文件。大量的小文件会给Hadoop的扩展性和性能带来严重的影响。...
2018-10-09 22:27:56 -
数据挖掘领域十大经典算法之—K-Means算法(超详
k-means算法比较简单。在k-means算法中,用cluster来表示簇;容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下:...
2018-10-09 22:27:56 -
数据挖掘领域十大经典算法之—C4.5算法(超详细
C4 5是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。常见的决策树算法有ID3,C4 5,...
2018-10-09 22:27:56 -
Kafka 客户端是如何找到 leader 分区的
在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做...
2018-10-09 22:27:56 -
Apache HBase2.0已经正式发布
HBase2 0 啥时候发布?好奇宝宝也是期待了很久,曾几何时都把stack问“烦”了,就在2018年4月30日中午,期待已久的HBase 2 0发布啦!...
2018-10-09 22:27:56 -
如何在万亿级别规模的数据量上使用Spark
本文主要是通过作者在搭建使用计算平台的过程中,写出对于Spark的理解,并且介绍了Spark在当前的DataMagic是如何使用的,当前平台已经用于...
2018-10-09 22:27:56 -
Accordion :一种HBase内存压缩算法
现如今,人们对基于HBase的产品的读写速度要求越来越高。在理想情况下,人们希望HBase 可以在保证其可靠的持久存储的前提下能并拥有内存...
2018-10-09 22:27:56 -
Kafka的存储机制以及可靠性
kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。所谓的分区其实就是在kafka对应存...
2018-10-09 22:27:56 -
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:...
2018-10-09 22:27:56 -
Hadoop 3.0版本测试,终将计算与存储解耦!
传统的Hadoop架构是建立在相信通过大规模分布式数据处理获得良好性能的唯一途径是将计算带入数据。在本世纪初,这确实是事实。当时,...
2018-10-09 22:27:56 -
Kafka分区分配策略(Partition Assignment Strategy)
用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,...
2018-10-09 22:27:56 -
spark自己的分布式存储系统 - BlockManager
BlockManager 是 spark 中至关重要的一个组件, 在 spark的的运行过程中到处都有 BlockManager 的身影, 只有搞清楚 BlockManager 的原理和机制,你才能...
2018-10-09 22:27:56