频道头条

大数据凉凉了？Apache将一众大数据开源项

这两天Apache基金会，这个因为大数据而成名的开源基金会连续不断的宣布将一系列的项目束之……

数据挖掘

手把手教你 Spark 性能调优

上周四接到反馈，集群部分 spark 任务执行很慢，且经常出错，参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。...
2018-10-09 22:42:37
零基础搭建Hadoop大数据处理环境

由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处...
2018-10-09 22:42:37
纽约时报Kafka架构实战

纽约时报有很多内容生成系统，我们使用第三方数据来编写故事。另外，我们有161年的新闻行业积累和21年的在线内容发布经验，所以大量的...
2018-10-09 22:42:37
Spark 1.6升级2.x防踩坑指南

Spark 2 x自2 0 0发布到目前的2 2 0已经有一年多的时间了，2 x宣称有诸多的性能改进，相信不少使用Spark的同学还停留在1 6 x或者更低的版本上，...
2018-10-09 22:42:37
MMLSpark：微软开源的用于Spark的深度学习库

MMLSpark为Apache Spark提供了大量深度学习和数据科学工具，包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成，使您...
2018-10-09 22:42:37
Hadoop 伪分布式搭建

Hadoop环境部署-JDK部分,准备工作,在 opt 目录下创建文件夹modules，和softwares,修改操作权限(切换至root用户下)...
2018-10-09 22:42:37
让 Python 更加充分的使用 Sqlite3

我决定试一试sqlite3。因为只需打开与数据库的连接，这样可以增加可处理的数据量，并将应用程序的加载时间减少到零。此外，我可以通过...
2018-10-09 22:42:37
干货 | Apache Spark最佳实践

本PPT来自 Spark summit EUROPE 2017Apache Spark不管是在 ETL、机器学习还是数据仓库等方面都是很不错的工具。但是真正想充分利用好...
2018-10-09 22:42:37
Hive基本使用教程

hive是用java开发的，hive里的基本数据类型和java的基本数据类型也是一一对应的，除了string类型。...
2018-10-09 22:42:37
Python开发中如何使用Hook技巧

什么是Hook，就是在一个已有的方法上加入一些钩子，使得在该方法执行前或执行后另在做一些额外的处理，那么Hook技巧有什么作用以及我们...
2018-10-09 22:42:37
基于Storm构建分布式实时处理应用初探

最近利用闲暇时间，又重新研读了一下Storm。认真对比了一下Hadoop，前者更擅长的是，实时流式数据处理，后者更擅长的是基于HDFS，通过M...
2018-10-09 22:42:37
Apache Kafka 1.0：为什么我们等了这么久？

Kafka 从首次发布之日起，已经走过了七个年头。从最开始的大规模消息系统，发展成为功能完善的分布式流式处理平台，用于发布和订阅、...
2018-10-09 22:42:37
Python中的时间处理大总结

python中处理时间的模块有三个，datetime, time,calendar，融汇贯通三个模块，才能随心所欲地用python处理时间。...
2018-10-09 22:42:37
Python并行处理

当你在机器上启动某个程序时，它只是在自己的“bubble”里面运行，这个气泡的作用就是用来将同一时刻运行的所有程序进行分离。这个“...
2018-10-09 22:42:37
Python 开发者的 6 个必备库

无论你是正在使用 Python 进行快速开发，还是在为 Python 桌面应用制作原生 UI ，或者是在优化现有的 Python 代码，以下这些 Python 项目都是应...
2018-10-09 22:42:37
搭建Spark所遇过的坑

出现此类问题有很多种, 当时遇到这问题的因为是在spark未改动的情况下, 更换了Hive的版本导致版本不对出现了此问题,...
2018-10-09 22:42:37
基于Kafka Streams构建广告消耗预测系统

本文将会先解释什么是超投，然后分享一下我们是如何使用 Kafka Streams 构造预测系统来提供近实时的预测消耗数据、从而降低超投的。...
2018-10-09 22:42:37
深度解析：Spark 优于 Hadoop 吗？

对于任何一个进入大数据世界的人来讲，大数据和Hadoop 就成了同义词。随着人们学习了大数据生态系统及其工具和运作原理，他们更能理解...
2018-10-09 22:42:37
号称世界最快句法分析器，Python高级自然语言处

spaCy是Python和Cython中的高级自然语言处理库，它建立在最新的研究基础之上，从一开始就设计用于实际产品。...
2018-10-09 22:42:37
一只node爬虫的升级打怪之路

我一直觉得，爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面，因为可以从爬虫中学习到web开发中应当掌握的一...
2018-10-09 22:42:37
Hadoop完全分布式集群安装Hbase

当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后，发现这是一个空的hadoop，只有YARN，MapReduce，HDFS，而这些实际上我们一般不会直接...
2018-10-09 22:41:15
机器学习：单词拼写纠正器python实现

借助朴素贝叶斯分类器的基本思想，编写一个单词拼写纠正器，它大致实现的功能如下：...
2018-10-09 22:41:15
高并发“热点”缓存数据快速“退火”

电商场景促销活动的会场页由于经常集中在某个时间点进行“秒杀”促销，这些页面的QPS(服务器每秒可以处理的请求量)往往特别高，数据库...
2018-10-09 22:41:15
Python oracle数据库操作时，中文查询报错

作者：Ge__python中使用oracle数据库进行查询时，出现下面的错误：UnicodeEncodeError: 39;ascii 39; codec can 39;t encode char...
2018-10-09 22:41:15
基于 Python 的 Scrapy 爬虫入门：代码详解

接下来创建一个爬虫项目，以图虫网为例抓取里面的图片。在顶部菜单“发现” “标签”里面是对各种图片的分类，点击一个标签，比如...
2018-10-09 22:41:15
python自动发邮件库yagmail

一般发邮件方法我以前在通过Python实现自动化邮件功能的时候是这样的：import smtplibfrom email mime text import MIMETextfrom emai...
2018-10-09 22:41:15
用Python实现了一个大数据数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据...
2018-10-09 22:41:15
Spark作业如何在无管理权限的集群部署Python或JD

在现实情况下，我们需要的 JDK 版本可能并没有在集群上安装，这个时候咋办?是不是就没办法呢?答案肯定不是，本文就是介绍如何解决这种...
2018-10-09 22:41:15
hadoop(04)、Hadoop 集群模式搭建实践

本文我们将在linux（CentOS7）下搭建hadoop集群模式，以便实践更多场景下hadoop的使用，尤其是在实际的生产模式中，必定是以集群模式存在。...
2018-10-09 22:41:15
浅析：spark认知

Spark是一种基于内存的开源计算框架，不同于Hadoop的MapReduce和HDFS，Spark主要包括Spark Core和在Spark Core基础之上建立的应用框架Spark SQL、Spark ...
2018-10-09 22:41:15
教你玩转Hadoop分布式集群搭建，进击大数据

终于要开始玩大数据了，之前对haoop生态几乎没有太多的了解，现在赶鸭子上架，需要完全使用它来做数据中心，这是我的haoop第一篇文章，...
2018-10-09 22:41:15
在数据预处理阶段，特征的标准化有哪些方法？

特征标准化(Feature Standardization)的作用是将样本数据中的每一列特征缩放到一个统一的尺度。方法有很多种，我列几个最常用的。...
2018-10-09 22:41:15
17个新手常见Python运行时错误

当初学 Python 时，想要弄懂 Python 的错误信息的含义可能有点复杂。这里列出了常见的的一些让你程序 crash 的运行时错误。...
2018-10-09 22:41:15
Hbase万亿级存储性能优化总结

hbase主集群在生产环境已稳定运行有1年半时间，最大的单表region数已达7200多个，每天新增入库量就有百亿条，对hbase的认识经历了懵懂到熟...
2018-10-09 22:41:15
用 Python 连接 MySQL 的几种姿势

尽管很多 NoSQL 数据库近几年大放异彩，但是像 MySQL 这样的关系型数据库依然是互联网的主流数据库之一，每个学 Python 的都有必要学好一门...
2018-10-09 22:41:15

首页
上一页
38
39
40
41
42
43
44
45
46
下一页
末页
共 48页1652条