数据挖掘
-
手把手教你 Spark 性能调优
上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。...
2018-10-09 22:42:37 -
零基础搭建Hadoop大数据处理环境
由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处...
2018-10-09 22:42:37 -
纽约时报Kafka架构实战
纽约时报有很多内容生成系统,我们使用第三方数据来编写故事。另外,我们有161年的新闻行业积累和21年的在线内容发布经验,所以大量的...
2018-10-09 22:42:37 -
Spark 1.6升级2.x防踩坑指南
Spark 2 x自2 0 0发布到目前的2 2 0已经有一年多的时间了,2 x宣称有诸多的性能改进,相信不少使用Spark的同学还停留在1 6 x或者更低的版本上,...
2018-10-09 22:42:37 -
MMLSpark:微软开源的用于Spark的深度学习库
MMLSpark为Apache Spark提供了大量深度学习和数据科学工具,包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成,使您...
2018-10-09 22:42:37 -
Hadoop 伪分布式搭建
Hadoop环境部署-JDK部分,准备工作,在 opt 目录下创建文件夹modules,和softwares,修改操作权限(切换至root用户下)...
2018-10-09 22:42:37 -
让 Python 更加充分的使用 Sqlite3
我决定试一试sqlite3。因为只需打开与数据库的连接,这样可以增加可处理的数据量,并将应用程序的加载时间减少到零。此外,我可以通过...
2018-10-09 22:42:37 -
干货 | Apache Spark最佳实践
本PPT来自 Spark summit EUROPE 2017Apache Spark不管是在 ETL、机器学习还是数据仓库等方面都是很不错的工具。但是真正想充分利用好...
2018-10-09 22:42:37 -
Hive基本使用教程
hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。...
2018-10-09 22:42:37 -
Python开发中如何使用Hook技巧
什么是Hook,就是在一个已有的方法上加入一些钩子,使得在该方法执行前或执行后另在做一些额外的处理,那么Hook技巧有什么作用以及我们...
2018-10-09 22:42:37 -
基于Storm构建分布式实时处理应用初探
最近利用闲暇时间,又重新研读了一下Storm。认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过M...
2018-10-09 22:42:37 -
Apache Kafka 1.0:为什么我们等了这么久?
Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、...
2018-10-09 22:42:37 -
Python中的时间处理大总结
python中处理时间的模块有三个,datetime, time,calendar,融汇贯通三个模块,才能随心所欲地用python处理时间。...
2018-10-09 22:42:37 -
Python并行处理
当你在机器上启动某个程序时,它只是在自己的“bubble”里面运行,这个气泡的作用就是用来将同一时刻运行的所有程序进行分离。这个“...
2018-10-09 22:42:37 -
Python 开发者的 6 个必备库
无论你是正在使用 Python 进行快速开发,还是在为 Python 桌面应用制作原生 UI ,或者是在优化现有的 Python 代码,以下这些 Python 项目都是应...
2018-10-09 22:42:37 -
搭建Spark所遇过的坑
出现此类问题有很多种, 当时遇到这问题的因为是在spark未改动的情况下, 更换了Hive的版本导致版本不对出现了此问题,...
2018-10-09 22:42:37 -
基于Kafka Streams构建广告消耗预测系统
本文将会先解释什么是超投,然后分享一下我们是如何使用 Kafka Streams 构造预测系统来提供近实时的预测消耗数据、从而降低超投的。...
2018-10-09 22:42:37 -
深度解析:Spark 优于 Hadoop 吗?
对于任何一个进入大数据世界的人来讲,大数据和Hadoop 就成了同义词。随着人们学习了大数据生态系统及其工具和运作原理,他们更能理解...
2018-10-09 22:42:37 -
号称世界最快句法分析器,Python高级自然语言处
spaCy是Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。...
2018-10-09 22:42:37 -
一只node爬虫的升级打怪之路
我一直觉得,爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面,因为可以从爬虫中学习到web开发中应当掌握的一...
2018-10-09 22:42:37 -
Hadoop完全分布式集群安装Hbase
当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接...
2018-10-09 22:41:15 -
机器学习:单词拼写纠正器python实现
借助朴素贝叶斯分类器的基本思想,编写一个单词拼写纠正器,它大致实现的功能如下:...
2018-10-09 22:41:15 -
高并发“热点”缓存数据快速“退火”
电商场景促销活动的会场页由于经常集中在某个时间点进行“秒杀”促销,这些页面的QPS(服务器每秒可以处理的请求量)往往特别高,数据库...
2018-10-09 22:41:15 -
Python oracle数据库操作时,中文查询报错
作者:Ge__python中使用oracle数据库进行查询时,出现下面的错误:UnicodeEncodeError: 39;ascii 39; codec can 39;t encode char...
2018-10-09 22:41:15 -
基于 Python 的 Scrapy 爬虫入门:代码详解
接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片。在顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如...
2018-10-09 22:41:15 -
python自动发邮件库yagmail
一般发邮件方法我以前在通过Python实现自动化邮件功能的时候是这样的:import smtplibfrom email mime text import MIMETextfrom emai...
2018-10-09 22:41:15 -
用Python实现了一个大数据数据搜索引擎
搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据...
2018-10-09 22:41:15 -
Spark作业如何在无管理权限的集群部署Python或JD
在现实情况下,我们需要的 JDK 版本可能并没有在集群上安装,这个时候咋办?是不是就没办法呢?答案肯定不是,本文就是介绍如何解决这种...
2018-10-09 22:41:15 -
hadoop(04)、Hadoop 集群模式搭建实践
本文我们将在linux(CentOS7)下搭建hadoop集群模式,以便实践更多场景下hadoop的使用,尤其是在实际的生产模式中,必定是以集群模式存在。...
2018-10-09 22:41:15 -
浅析:spark认知
Spark是一种基于内存的开源计算框架,不同于Hadoop的MapReduce和HDFS,Spark主要包括Spark Core和在Spark Core基础之上建立的应用框架Spark SQL、Spark ...
2018-10-09 22:41:15 -
教你玩转Hadoop分布式集群搭建,进击大数据
终于要开始玩大数据了,之前对haoop生态几乎没有太多的了解,现在赶鸭子上架,需要完全使用它来做数据中心,这是我的haoop第一篇文章,...
2018-10-09 22:41:15 -
在数据预处理阶段,特征的标准化有哪些方法?
特征标准化(Feature Standardization)的作用是将样本数据中的每一列特征缩放到一个统一的尺度。方法有很多种,我列几个最常用的。...
2018-10-09 22:41:15 -
17个新手常见Python运行时错误
当初学 Python 时,想要弄懂 Python 的错误信息的含义可能有点复杂。这里列出了常见的的一些让你程序 crash 的运行时错误。...
2018-10-09 22:41:15 -
Hbase万亿级存储性能优化总结
hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟...
2018-10-09 22:41:15 -
用 Python 连接 MySQL 的几种姿势
尽管很多 NoSQL 数据库近几年大放异彩,但是像 MySQL 这样的关系型数据库依然是互联网的主流数据库之一,每个学 Python 的都有必要学好一门...
2018-10-09 22:41:15