大数据之Hadoop初识篇

hadoop介绍 (直奔主题)开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HD 

2018-01-19

大数据 可思数据

遇到海量数据时怎样处理?

本文将介绍一些处理海量数据问题的常见方法,也可以说是对海量数据的处理方法进行了一个简单的总结。(一)Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合 

2018-01-19

大数据 可思数据

10道Hadoop面试真题及解题思路

(一)海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样 

2018-01-19

大数据 可思数据

Hadoop HA 机制学习:HA是怎么运作,QJM又是怎么发

导语最近分享过一次关于Hadoop技术主题的演讲,由于接触时间不长,很多技术细节认识不够,也没讲清楚,作为一个技术人员,本着追根溯源的精神,还是有必要吃透,也为自己的工作沉淀一些 

2018-01-19

大数据 可思数据

手把手教你 Spark 性能调优

0、背景上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。看了下任务的历史运行情况,平均时间 3h 左右,而且 

2018-01-19

大数据 可思数据

零基础搭建Hadoop大数据处理环境

由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍 

2018-01-19

大数据 可思数据

大数据的存储和管理

任何机器都会有物理上的限制:内存容量、硬盘容量、处理器速度等等,我们需要在这些硬件的限制和性能之间做出取舍,比如内存的读取速度比硬盘快得多,因此内存数据库比硬盘数据库 

2018-01-18

大数据 可思数据

数据分析报表设计开发要素

1. 背景随着企业对数据价值的认识越来越高,数据分析类项目也随之增加,尤其是近一段时间大数据时代的到来,数据分析已经是必不可少的内容。其中数据分析结果以报表形式呈现给用 

2018-01-18

大数据 可思数据

大数据处理分析的六大最好工具

我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争 

2018-01-18

大数据 可思数据

面试大数据工程师,你会碰到的一些大数据存储问题

摘要:面试时问你的一些大数据存储问题。一般采用分治法!,大文件映射成小文件1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方 

2018-01-18

大数据 可思数据

专业大数据公司:Hadoop与MapR的稳中求变

最近出炉了不少关于科技产业中各种预测,综合一下各厂商的观点,我们将对2013年度的大数据发展预测进行综述,再加上我们的意见,有些可能会是十分有趣的。Hadoop的2013让我们从Had 

2018-01-18

大数据 可思数据

10个Hadoop的常见应用场景

本文介绍了10个Hadoop的应用场景,其实Hadoop的应用场景远不止广告数据分析和搜索引擎,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用。谁在用Hadoop这是个问题。 

2018-01-18

大数据 可思数据

Elasticsearch 创始人 Shay Banon:让数据自己说

随着互联网数据规模的爆炸式增长,如何从海量的历史、实时数据中快速获取有用的信息,变得越来越具有挑战性。而这其中,搜索作为获取信息最高效的途径之一,已经越来越受到人们的 

2018-01-14

大数据 可思数据

海量数据与海量金钱:大数据在金融领域的作用

在说起高科技驱动的行业时,人们——至少有不少人——首先想到的肯定不是银行业。然而,当我们考虑大数据的 3V 特性[1]——Volume、Velocity 

2018-01-14

大数据 可思数据

页次:1/1 每页25 总数14    首页  上一页  下一页  尾页    转到: 
热点图文 更多