数据挖掘
-
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:...
2018-10-09 22:27:56 -
Hadoop 3.0版本测试,终将计算与存储解耦!
传统的Hadoop架构是建立在相信通过大规模分布式数据处理获得良好性能的唯一途径是将计算带入数据。在本世纪初,这确实是事实。当时,...
2018-10-09 22:27:56 -
Kafka分区分配策略(Partition Assignment Strategy)
用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,...
2018-10-09 22:27:56 -
spark自己的分布式存储系统 - BlockManager
BlockManager 是 spark 中至关重要的一个组件, 在 spark的的运行过程中到处都有 BlockManager 的身影, 只有搞清楚 BlockManager 的原理和机制,你才能...
2018-10-09 22:27:56 -
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计
那么Spark的真正特点是什么?抛开Spark的执行模型的方式,它的特点无非就是多个任务之间数据通信不需要借助硬盘而是通过内存,大大提高了...
2018-10-09 22:27:56 -
如何用Python解决非平衡数据问题(附代码)
本次分享的主题是关于数据挖掘中常见的非平衡数据的处理,内容涉及到非平衡数据的解决方案和原理,以及如何使用Python这个强大的工具...
2018-10-09 22:20:33 -
机器学习祖师爷Tom Mitchell:带着理性拥抱机器学
实际上,除了 Michael I Jordan,还有一位机器学习领域的祖师爷级教授 Tom Mitchell 也来到了 GMIC 2018。本文对 Tom Mitchell 教授进行了专访,教授风...
2018-10-09 22:19:53 -
HIVE和HBASE之间,主要的区别是什么?
Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被...
2018-10-09 22:18:58 -
大数据和「数据挖掘」是何关系?
问:大数据是最近两年提出的,而数据挖掘上世纪就提出来了。我想知道的是,现在大数据的背景下,采用的数据挖掘算法跟之前传统的数...
2018-10-09 22:18:58 -
Accordion:HBase的 “呼吸式”内存压缩算法
现今,HBase 所支持的现代产品对Hbase读写性能的期望越来越高。理想情况下,HBase 也希望在保证其可靠的持久存储的前提下能同时享有内存数...
2018-10-09 22:18:58 -
如何追赶如此之火的大数据AI热潮?
大数据属新兴领域,专业人才匮乏,高端人才更是企业的争抢对象。踏入大数据领域的我们,高端的AI技术更是我们所需要了解的,而作为初...
2018-10-09 22:18:58 -
Flume + kafka + HDFS构建日志采集系统
Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存...
2018-10-09 22:18:58 -
在shell中如何判断HDFS中的文件目录是否存在
在Linux文件系统中,我们可以使用下面的Shell脚本判断某个文件是否存在?但是我们想判断HDFS上某个文件是否存在咋办呢?别急,Hadoop内置提...
2018-10-09 22:18:58 -
Python新功能:或将允许安全工具查看运行时操作
针对 Python 编程语言的新功能提议之一是希望为运行时添加“透明度”,并让安全和审计工具查看 Python 何时可能运行潜在危险的操作。...
2018-10-09 22:18:58 -
用Python将数据写到CSV文件
我们从网上爬取数据,最后一步会考虑如何存储数据。如果数据量不大,往往不会选择存储到数据库,而是选择存储到文件中,例如文本文...
2018-10-09 22:18:58 -
手把手教你训练 RNN | Part I
在之前的文章中,我们介绍了 RNN 的基本结构并将其按时间序列展开成 Cells 循环链,称为 RNN cells。下面,我们将揭示单个 RNN Cell 的内部结构...
2018-10-09 22:18:58 -
手把手教你训练 RNN | Part II
RNN 中反向传播的目的是计算出最终的损失值 L 分别对权值矩阵(W_xh,W_ah,W_ao)和偏置向量(b_h,b_o)的偏导数值。...
2018-10-09 22:18:58 -
Python数据预处理:使用Dask和Numba并行化加速
如果你善于使用Pandas变换数据、创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作。...
2018-10-09 22:18:58 -
HBase从入门到精通系列:误删数据如何抢救?
有时候我们操作数据库的时候不小心误删数据,这时候如何找回?mysql里有binlog可以帮助我们恢复数据,但是没有开binlog也没有备份就尴尬了...
2018-10-09 22:18:58 -
Elasticsearch 6.3 发布,你们要的 SQL 功能来了
我们可以像操作 MySQL一样使用 Elasticsearch,这样我们就可以减少 DSL 的学习成本,这个 SQL 模块是属于 X-Pack 的一部分。...
2018-10-09 22:18:58 -
如何使用Facebook开发的这种快速数据压缩算法Zs
Zstandard(又叫Zstd)是一款免费开源的快速实时数据压缩程序,具有更高的压缩比,由Facebook开发。它是用C语言编写的无损压缩算法,因此它...
2018-10-09 22:18:58 -
基于Hadoop的数据分析平台搭建
随着越来越多的企业开始使用Hadoop平台,也为Hadoop平台引入了许多的技术,如Hive、Spark SQL、Kafka等,丰富的组件使得用Hadoop构建数据分析平...
2018-10-09 22:18:58 -
大数据——分布式部署
之前学期的大数据内容都是在伪分布式下完成的,若想了解伪分布式,可以找前几天的内容,今天主要是针对与分布式部署。...
2018-10-09 22:18:58 -
spark2.1.0之配置与源码分析
Spark作为一款优秀的计算框架,也配备了各种各样的系统配置参数(例如:spark master,spark app name,spark driver memory,spark executor memory等)。通过...
2018-10-09 22:18:58 -
Streaming metadate checkpoint详解
spark streaming的checkpoint目的是保证长时间运行的任务在意外挂掉后保证数据不丢失,checkpoint包含两种数据:metadata和data,本篇主要讨论对me...
2018-10-09 22:18:58 -
用HBase做高性能键值查询?
最近碰到几家用户在使用HBase或者试图使用HBase来做高性能查询,场景也比较类似,就是从几十亿甚至上百亿记录中按键值找出相关记录来。...
2018-10-09 22:18:58 -
Hadoop——源码编译
将hadoop正在维护的几个版本的最新源码包都下载了下来,本篇文章将针对2 7 6版本进行编译,其他版本的编译大同小异...
2018-10-09 22:18:58 -
HBase高性能随机查询之道 – HFile原理解析
在各色数据库系统百花齐放的今天,能让大家铭记的,往往是一个数据库所能带给大家的差异化能力。正如梁宁老师的产品思维课程中所讲...
2018-10-09 22:18:58 -
hdfs,mapreduce相关流程总结
hdfs,mapreduce相关流程总结。1)client向namenode发送请求,namenode从元数据中检查目标文件是否存在,上传路径路径是否合法...
2018-10-09 22:18:58 -
Spark核心功能设计详解
本文是读耿嘉安先生的《Spark内核设计艺术:架构设计与实现》的读书笔记,感觉这一部分很重要,很基础,很有价值,特此记录一下...
2018-10-09 22:18:58 -
世界上最流行的编程语言恰恰也是大多数黑客的
Python的简单性、灵活性以及相对容易上手的优点,不难看出为什么《经济学人》杂志最近将Python誉为是即将在全球使用量最多的语言。...
2018-10-09 14:37:59 -
驰骋股市!手把手教你如何用Python和数据科学赚
不管是否是经济达人,数据科学都是一种帮你了解一支股票的高效方式。本文作者把数据科学和机器学习技术应用到金融领域中,向你展示...
2018-10-08 19:17:21 -
数据结构与算法精选面试题
在这篇文章中,我将分享一些常见的来自不同经验水平程序员的编程面试问题,他们是从刚大学毕业的人到有一到两年经验的程序员。...
2018-10-08 19:16:05 -
PyTorch1.0预览版发布:超越Python性能的C++前端接口
近日,在首届 PyTorch 开发者大会上,Facebook 宣布了有关该框架生态一系列更新,包括软件、硬件和教育方面的合作。于此同时,PyTorch 1 0 预...
2018-10-08 19:14:48 -
如何向小白介绍机器学习和数据挖掘
买芒果 嘴馋的你想吃芒果了,于是你走到水果摊,挑了几个让老板过过秤,然后你再根据芒果的斤两付钱走人。 显然,买芒果你当然是挑着...
2018-10-04 22:26:24