数据挖掘
-
数据科学难在实践,有哪些弯路可以不走?
Blue Yonder,一个成立于2008年的大数据分析平台,用他8年的数据科学经验告诉你,什么是真正的数据科学、有哪些弯路可以不走。...
2019-03-25 23:25:32 -
大数据趋势预测靠谱吗?德国研究者用1.7万篇
近日,来自德国达姆施塔特工业大学和法兰克福金融管理学院的研究者在 arXiv 上发表论文,试图基于两个 arXiv 论文数据集预测相关领域的研...
2019-03-20 23:07:29 -
数据清理的终极指南
你为你的模型引入了大量脏数据,没有清理数据,你告诉你的公司用这些结果做事情,结果肯定是错的。数据不正确或不一致会导致错误的...
2019-03-20 23:07:01 -
2019年IT关注的重点:大数据分析的存储架构
存储行业的技术专家和分析师预测,IT组织将专注于改进其存储架构,以便在2019年更好地利用数据分析、人工智能和物联网。并指出,改进...
2019-03-18 19:20:50 -
突发宕机,Kafka写入的数据如何保证不丢失?
前面分享的一篇文章《Kafka如何实现每秒上百万的超高并发写入?》,相信大家都知道了写入 Kafka 的数据是会落地写入磁盘的,这篇给大家聊...
2019-03-13 23:14:09 -
Kafka如何实现每秒上百万的超高并发写入?
这篇文章来聊一下 Kafka 的一些架构设计原理,这也是互联网公司面试时非常高频的技术考点。...
2019-03-13 23:13:51 -
从数据中台到AI中台
企业对数据的利用有三个阶段:响应运营,响应业务,创造业务。数据中台解决的是响应业务的问题,第三阶段“创造业务”,则需要AI中台...
2019-03-13 23:12:16 -
如何在数据科学领域从起步到就业(附链接)
我们将告诉您最快、最可靠的方法,让您在数据科学领域,或在某个新的编程语言或新技术方面从零开始到找到工作。...
2019-03-08 23:51:54 -
重磅发布2.0 Alpha版,TensorFlow新定位:端到端开源
刚刚,谷歌在 Tensorflow Developer Summit 2019 大会上发布 TensorFlow 2 0 Alpha 版。虽然在此之前关于 TensorFlow2 0 的众多更新已经放出,但作为当前最为...
2019-03-08 00:39:33 -
划重点!搞定这120个真实面试问题,杀进数据科
今天给大家推荐一份数据科学面试资料,资料收集了来自顶级技术公司的访调员和数据科学家。从浅入深的囊括了沟通、数据分析、模型预...
2019-03-08 00:37:51 -
2025年大数据分析发展的预测
全球每天的互联网搜索、点击、分享、喜欢和刷卡都会产生大约2 5艾字节的数据。这仅仅是由于物联网推动的。IDC公司预测,到2025年数据量...
2019-03-08 00:37:33 -
数据科学岗位将在未来5年内重新洗牌,你准备好
计算器的工作曾经由人来做;网站管理员曾经是热门职业;中层管理人员也曾配备过秘书。技术的迭代变革了一批又一批职业,数据科学家也不...
2019-03-08 00:36:29 -
网易数据基础平台建设经验谈
今天分享的内容主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年大数据建设经验。...
2019-03-08 00:35:05 -
阿里数据一致性实践:Dledger 技术在消息领域的探
一直以来,在多地多中心的消息发送场景下,如何保障数据的完整性和一致性是一个技术难点。本文将和您一起探讨 Dledger 技术,并分享 ...
2019-03-08 00:33:35 -
被挤爆的数据科学行业!五年前“最性感的职业
数据科学刚刚度过了它的黄金五年。自2012年以来,这个行业发展迅速。它几乎完整经历了Gartner技术成熟度曲线的每个阶段。...
2019-03-05 18:22:05 -
2019年了,你还不知道怎么做数据科学家吗?
本文由一位想通过自学数据科学成为数据科学家的入门者和一位真正的数据科学家的对话组成。在对话中,数据科学家向入门者提出了一大...
2019-03-05 18:21:32 -
Gartner:2019年十大数据与分析技术趋势
Gartner建议数据及分析领导者与高级业务领导一同讨论他们至关重要的业务优先事项,并探索如何利用以下主要趋势获得竞争优势。...
2019-03-05 18:20:47 -
大数据分析陷阱与Simpson’s Paradox(辛普森悖论)
在大数据分析时,你有没有遇到这样一种奇怪现象:当分开看数据的时候会得到一种结论,但是合起来之后发现情况却完全改变?这就是著名...
2019-03-01 23:24:08 -
进阶指南:如何从数据分析师转型为数据科学家
文章解释了转型为数据科学家的原因,整理了数据科学家应该掌握的技能,着重介绍了从数据分析师转型为数据科学家的具体方法。...
2019-03-01 23:21:47 -
1500+星标,简单易用 TensorFlow 代码集,随查随看!
下面为大家推荐一份非常棒的资料,具体来说这是一个易用的TensorFlow代码集,作者是来自韩国的AI研究科学家Junho Kim,内容涵盖了谱归一化...
2019-03-01 23:16:15 -
有赞 HBase 技术实践:读流程解析与优化
本文首先对 HBase 做简单的介绍,包括其整体架构、依赖组件、核心服务类的相关解析。...
2019-02-27 22:29:57 -
深度预警:深入理解HBase的系统架构
物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。...
2019-02-27 22:29:49 -
Spark Streaming 在数据平台日志解析功能的应用
目前支持解析的日志类型包括:Hive 任务、Spark 任务、Datay 增量任务、导入任务、导出、MR 任务、Hbasebulk、脚本任务等。dataplatform 支持的调...
2019-02-27 22:29:41 -
如何找到 Kafka 集群的吞吐量极限?
Kafka 是非常流行的分布式流式处理和大数据消息队列解决方案,在技术行业已经得到了广泛采用,在 Dropbox 也不例外。这篇文章将分享他们...
2019-02-27 22:29:34 -
HBase 协处理器入门及实战
HBase 和 MapReduce 有很高的集成,我们可以使用 MR 对存储在 HBase 中的数据进行分布式计算。...
2019-02-27 22:29:25 -
图形数据库的优点:更简单的数据建模和分析
作为咨询公司Booz Allen Hamilton首席数据科学家,Kirk Borne是从数据连接角度来看这个世界。Borne称:“生活是关于,谁连接到谁,什么连接到什...
2019-02-27 22:28:58 -
我们常常意识不到问题的存在,直到有人解决了
Hadoop MapReduce 虽然已经可以满足大数据的应用场景,但是其执行速度和编程复杂度并不让人们满意。...
2019-02-26 18:02:49 -
典型技术架构的分析和构建——《企业大数据实
可能听了我的分享或者别人的分享,大家都会跃跃欲试。我们需要从哪一个方面去入手去改造大数据业务呢?我整理了一下,一个大数据应用...
2019-02-25 23:01:25 -
解析业务数据的特征——《企业大数据实践路线
我们今天的内容是解析业务数据的特征。我们已经知道了数据从哪里来,也知道有什么数据,现在我们需要去分析一下这些数据的特征是什...
2019-02-25 23:01:01 -
数据科学流行的编程语言及算法、薪酬行业现状
此篇是介绍了ML&Data Science调查结果的国内篇,数据量较为有限,另外Kaggle作为著名的在线数据科学竞赛平台,此次调查可能是针对Kagglers对数...
2019-02-22 22:25:21 -
Gartner 2019年「数据和分析技术」领域的十大趋势
据知名调研机构Gartner公司声称,数据和分析技术领域的几大趋势在未来三到五年内具有巨大的颠覆性力量,其中包括增强型分析、持续型智...
2019-02-21 22:50:28 -
一套很专业的监控方案:HDFS监控落地背后的思考
基于京东云的实战经验,我们今天来聊聊HDFS相关的监控。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式...
2019-02-21 22:46:50 -
Golang与Python,哪种编程语言更适合您?
在多数时候,此类讨论最后会归结于是使用Python、还是Golang语言。在本文中,我将比较这两种语言的如下各个方面,这些方面的参数将能够...
2019-02-21 22:46:25 -
独家解密:阿里大规模数据中心性能分析
本文整理自阿里巴巴高级技术专家郭健美在 2018 年 12 月 GreenTea JUG Java Meetup 上的分享,主要介绍阿里大规模数据中心性能监控与分析的挑战...
2019-02-20 18:38:31 -
我分析了上万个微信红包数据,得到了这些发现
从2015年8月到2017年8月,本群产生了约两万条红包分享记录,笔者最近将这些记录导出,通过数量,时间,语义等维度分析这些数据,下面将...
2019-02-20 18:34:12