数据挖掘
-
技术 | 从Apache Kafka到Apache Spark安全读取数据
随着在CDH平台上物联网(IoT)使用案例的不断增加,针对这些工作负载的安全性显得至关重要。...
2018-10-09 22:49:30 -
Livy:基于Apache Spark的REST服务
本文引入Livy这样一个基于Apache Spark的REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户...
2018-10-09 22:49:30 -
Spark未来何去何从?新主流架构带你探析企业级的
Spark作为当今最炙手可热的大数据技术框架,向全世界展示了最新的技术成果、生态体系及未来发展规划。...
2018-10-09 22:49:30 -
Spark在基因组数据分析应用中大有可为
科学研究人员需要强大的大数据架构来应对挖掘和分析基因组数据的挑战,有人说Apache Spark引擎非常适合这项工作。...
2018-10-09 22:49:30 -
DeepMind解密黑箱第一步:原来神经网络的认知原理
因为AlphaGo而名声大噪的人工智能公司DeepMind近期发表了一篇论文介绍自己在神经网络的解释性问题上最新探索。论文被ICML接受后,DeepMind的...
2018-10-09 22:49:30 -
历时半年,腾讯Angel为了开源都经历了些什么?
2017 年 6 月 16 日,腾讯新一代高性能计算平台 Angel 在 Github 上低调开源。开源两周,这个项目在 Github 上持续得到关注,截至目前为止,已收...
2018-10-09 22:49:30 -
强大的PyTorch:10分钟让你了解深度学习领域新流
这篇文章我们就来讲述一下我对PyTorch代码的理解,希望能帮助你阅读PyTorch代码。整个过程是基于贾斯汀·约翰逊的伟大教程。如果你想了解...
2018-10-09 22:49:30 -
使用Python来学习数据科学的完整教程
一直以来,我喜欢敲代码。事实证明,有了Python,敲代码变得更为容易。我花了一周时间来学习Python的基础知识,从那时起,我不仅深入钻...
2018-10-09 22:49:30 -
揭秘 DeepMind 的关系推理网络
每当 DeepMind 发表一篇新文章时,媒体都会有狂热的报道,而你常常会在这些报道中读到一些充满误导性的词句。...
2018-10-09 22:49:30 -
解读:大数据框架Hadoop主要模块
包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件...
2018-10-09 22:49:30 -
主要推荐系统算法总结及Youtube深度学习推荐算法
现如今,许多公司使用大数据来做超级相关推荐,并以此来增加收益。在海量推荐算法中,数据科学家需要根据商业限制以及需求来选择最...
2018-10-09 22:49:30 -
从浅层模型到深度模型:概览机器学习优化算法
学习算法一直以来是机器学习能根据数据学到知识的核心技术。而好的优化算法可以大大提高学习速度,加快算法的收敛速度和效果。...
2018-10-09 22:49:30 -
Spark Streaming应用与实战全攻略(Ⅰ)
本篇为第一部分,包括背景与架构改造、通过代码实现具体细节并运行项目、对Streaming监控的介绍以及解决实际问题、对项目做压测与相关...
2018-10-09 22:49:30 -
Spark Streaming应用与实战全攻略(Ⅱ)
本篇为第二部分,包括Streaming持续优化之HBase以及管理Streaming任务。...
2018-10-09 22:49:30 -
Apache Spark 2.2.0新特性详细介绍
Apache Spark 2 2 0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《Apache Spark 2 2 0正式发布》文章中...
2018-10-09 22:49:30 -
轻松看懂机器学习十大常用算法
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应...
2018-10-09 22:49:30 -
Hadoop 3.0新版本介绍及未来发展方向(内附PDF)
此次将向大家全面介绍即将到来的Apache Hadoop 3 0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新...
2018-10-09 22:47:42 -
HBase原理——要弄懂的sequenceId
HBase数据在写入的时候首先追加写入HLog,再写入Memstore,也就是说一份数据会以两种不同的形式存在于两个地方。...
2018-10-09 22:47:42 -
Hadoop Yarn调度器的选择和使用
Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。...
2018-10-09 22:47:42 -
Hadoop工具如何形成SAP Hana的大数据平台
自2008年以来,SAP Hana一直是领先的数据库管理系统之一。它比许多其他数据库管理解决方案能够更有效地处理数据,主要是因为它可以使用...
2018-10-09 22:47:42 -
如何选择Spark机器学习API
本文将简要介绍Spark机器学习库(Spark MLlib’s APIs)的各种机器学习算法,主要包括:统计算法、分类算法、聚类算法和协同过滤算法,以及各...
2018-10-09 22:47:42 -
Hadoop生态圈以及各组成部分的简介
适合大数据的分布式存储与计算平台;HDFS: Hadoop Distributed File System分布式文件系统;MapReduce:并行计算框架...
2018-10-09 22:47:42 -
一文看懂HIVE和HBASE的区别
Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。...
2018-10-09 22:47:42 -
Spark 机器学习的加速器:Spark on Angel
Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问...
2018-10-09 22:47:42 -
HBase在阿里搜索中的应用实践
HBase作为淘宝全网索引构建以及在线机器学习平台的核心存储系统,是阿里搜索基础架构的重要组成部分。本文我们将介绍HBase在阿里搜索的...
2018-10-09 22:47:42 -
Apache Kafka:大数据的实时处理时代
在过去几年,对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统:我们可以将每一次用户点击,每一个数据库更改,每一条日志的生...
2018-10-09 22:47:42 -
详细剖析:spark基础知识
dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不...
2018-10-09 22:47:42 -
专访首席工程师戴金权,全面解析英特尔深度学
为了降低企业用户使用深度学习进行数据分析和构建人工智能应用的门槛,2016年12月31日,英特尔开源了基于 Apache Spark 的分布式深度学习框...
2018-10-09 22:47:42 -
基于Kafka与Spark的实时大数据质量监控平台
微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据...
2018-10-09 22:47:42 -
Apache Flink 技术解读之分布式运行时环境
在实际的分布式计算环境中,Flink 会将多个运算子任务链接到分布式计算任务中。每个线程执行一个计算任务。将运算符链接到计算任务中...
2018-10-09 22:47:42 -
一篇文章掌握Sql-On-Hadoop核心技术
在众多的 SQL On Hadoop 系统中,有必要对其进行一个分类。一般而言,用户更关心的是查询时延,根据用户提交查询到结果返回的时间长短,...
2018-10-09 22:47:42 -
Spark on Angel:Spark机器学习的核心加速器
Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问...
2018-10-09 22:47:42 -
干货:Spark性能优化指南
本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。...
2018-10-09 22:47:42 -
大数据Hadoop之 YARN认识
Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为...
2018-10-09 22:47:42 -
一分钟让你知道Hadoop是什么
hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现...
2018-10-09 22:47:42