数据挖掘
-
长文揭秘:阿里如何实现海量数据实时分析?
随着数据量的快速增长,越来越多的企业迎来业务数据化时代,数据成为了最重要的生产资料和业务升级依据。伴随着业务对海量数据实时...
2018-12-19 22:17:32 -
计算社会经济学:行为数据驱动预测性管理
大数据时代来临,经济和社会数据在人们不经意间就被大量记录。特别地,非干预的、高时空分辨率的行为数据,在预测性管理方面展露出...
2018-12-19 22:17:10 -
数据科学中各职业都在做什么?有什么区别?
下面一起看看数据科学中的不同角色。我们会做一些扩展,以涵盖对具有数据技能的候选人来说,所有可考虑的数据科学职业角色。...
2018-12-19 21:59:11 -
Python数据科学:方差分析
数理统计分为频率和贝叶斯两大学派。描述性统计分析,描述性分析就是从总体数据中提炼变量的主要信息,即统计量。...
2018-12-19 21:58:25 -
没有什么内存问题,是一行Python代码解决不了的
内存不足是项目开发过程中经常碰到的问题,我和我的团队在之前的一个项目中也遇到了这个问题,我们的项目需要存储和处理一个相当大...
2018-12-18 23:37:20 -
《统计学习方法》的Python 3.6复现,实测可用
统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。我们近期发现了...
2018-12-17 23:48:51 -
如果数据分布是非正态的怎么办?用切比雪夫不
下图是万圣节的一周,在捣蛋和给糖之间,数据极客们在社交媒体上为这个可爱的网红词汇而窃窃私语。正态分布 超自然分布你觉得这是个...
2018-12-17 23:48:27 -
Hadoop运行在Kubernetes平台实践
Hadoop与Kubernetes就好像江湖里的两大绝世高手,一个是成名已久的长者,至今仍然名声远扬,一个则是初出茅庐的青涩少年,骨骼惊奇,不走...
2018-12-17 23:32:49 -
9个鲜为人知的Python数据科学库
在本文中,我们将看到 Python 库中的一些数据科学工具,而不是那些常用的工具,如 pandas、scikit-learn 和 matplotlib。虽然像 pandas、scikit-learn...
2018-12-12 14:44:22 -
Gartner:有87%企业的BI和分析成熟度还很低
Gartner的一项调查显示,超过87%的组织被归类为商业智能(BI)和分析成熟度较低,这给那些希望提高数据资产价值和利用新兴分析技术如机器学...
2018-12-11 14:10:18 -
大数据可视化及发展趋势
本文是我在整理大数据可视化时,针对大数据可视化的一些概念进行了归纳和整理。...
2018-12-11 13:20:14 -
美团DB数据同步到数据仓库的架构与实践
在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日...
2018-12-10 13:15:27 -
实战:用Python实现随机森林
在本文中,我们将介绍如何在Python中构建和使用Random Forest,而不是仅仅显示代码,我将尝试了解模型的工作原理。我将从一个简单的单一决...
2018-12-10 13:15:10 -
Twitter 的 Kafka 迁移历程
Twitter 的实时性特点为 Twitter 的工程团队带来了独特而具有挑战性的问题。我们需要快速发布突发新闻,向用户提供相关广告,并解决很多其...
2018-12-07 23:06:04 -
Keras中几个重要函数用法
Keras的核心数据结构是“模型”,模型是一种组织网络层的方式。Keras中主要的模型是Sequential模型,Sequential是一系列网络层按顺序构成的栈...
2018-12-07 22:50:42 -
人力资源数据可视化技术架构
智慧人社建设也是近几年大数据技术的重点应用方向之一,15年印发的《促进大数据发展行动纲要》中就明确,通过建立“用数据说话、用数...
2018-12-06 14:58:33 -
ApsaraDB-HBase介绍及案例分析
主要介绍HBase基础知识,以及阿里云 HBase 在开源版本上所做的重要改进,典型HBase Spark的使用案例...
2018-12-06 14:58:00 -
Python程序员的30个常见错误
在这篇文章中,我将总结新老Python程序员常犯的一些错误,以帮助你们在自己的工作避免犯同样或类似错误。...
2018-12-06 13:15:53 -
转型为一名数据科学家的正确打开方式
如果你是一名初级入门者,或者是一名软件工程师,亦或者是一名数学物理系毕业生,想要转型为一名数据科学家,按照我的建议一步一个...
2018-12-05 17:59:47 -
实时流处理新选择:LinkedIn 重磅发布 Samza 1.0
近日,LinkedIn 正式发布了开源流式计算框架 Samza 的 1 0 版本。实时摄取和处理大量数据的能力对于越来越多的企业来说是一件非常有趣的事...
2018-12-05 17:54:45 -
从NIPS到NeurIP 20年数据分析:MIT贡献最大,吴恩达
NeurIPS(前称NIPS)可谓人工智能年度最大盛会。每年的圣诞前夕,全球的人工智能爱好者和科学家都聚集起来发布最新研究,并进行热烈探讨。...
2018-12-05 17:54:10 -
玩转TensorFlow?你需要知道这30功能
最近,twitter 上有一位 Goolge AI 工程师、Google AI 的积极宣传者 Paige Bailey (@DynamicWebPaige)总结了 TensorFlow 的 30 个主要功能,整理如下。...
2018-12-04 17:13:36 -
B 端大数据应用的架构实践与思考
同样是处理大数据,您认为 B 端和 C 端大数据处理的最大差异是什么,在架构实践上需要做出怎样的针对性调整呢?...
2018-12-03 22:36:07 -
数据可视化高手总结的15个技巧
大数据时代,数据驱动决策。处理不好庞大、复杂的数据,其价值将大打折扣。本文通过连环15关,层层深入,传你数据匹配图形神功,让数...
2018-12-03 22:35:18 -
大数据开发者应该知道的分布式系统 CAP 理论
无论你是一个系统架构师,还是一个普通开发,当你开发或者设计一个分布式系统的时候,CAP理论是无论如何也绕不过去的。本文就来介绍...
2018-12-03 22:34:56 -
WTF Python:有趣且鲜为人知的Python特性
Python 是一个设计优美的解释型高级语言,它提供了很多能让程序员感到舒适的功能特性。但有的时候,Python 的一些输出结果对于初学者来说...
2018-12-03 22:26:40 -
高手总结的15个技巧,让你轻松玩转数据可视化!
大数据时代,数据驱动决策。处理不好庞大、复杂的数据,其价值将大打折扣。如何缩短数据与用户的距离?让用户一眼抓到重点?让老板为你...
2018-11-30 23:55:18 -
Python+数据分析:数据分析北京Python开发的现状
既然要分析那必然是现有数据样本。本文通过爬虫和数据分析为大家展示一下北京Python开发的现状,希望能够在职业规划方面帮助到大家!...
2018-11-29 23:17:31 -
手把手教你如何用Python从PDF文件中导出数据
在这篇贴子中,我们将探讨多个不同的Python包,并学习如何从PDF中提取某些图片。尽管在Python中没有一个完整的解决方案,你还是应该能够...
2018-11-29 23:16:47 -
2019 年软件开发人员必学的编程语言 Top 3
这篇文章将探讨编程语言世界的现在和未来,这些语言让新一代软件开发者成为这个数字世界的关键参与者,他们让这个世界变得更健壮、...
2018-11-29 23:16:13 -
专访数学家Hannah Fry:算法的时代,人类从未如此
算法时代,似乎一切都可以有新的组织方式:有的算法能告诉我们读什么书、跟谁约会,甚至告诉警察应该逮捕哪个人。...
2018-11-28 14:05:05 -
数据存储之争:闪存Vs.硬盘驱动器
基于闪存的硬盘和机械硬盘之间的市场份额的争夺与物理冲突非常类似,因此可以应用相同的语言。其竞争基本上是市场上的,其结果由谁...
2018-11-27 22:41:15 -
Python数据可视化的四种简易方法
数据可视化是任何数据科学或机器学习项目的一个重要组成部分。人们常常会从探索数据分析(EDA)开始,来深入了解数据,并且创建可视化确...
2018-11-27 22:31:59 -
Tensorflow 2.0的这些新设计,你适应好了吗?
通过阅读这篇文章,熟悉Tensorflow的老用户可以尽早转变思维,适应新版本的变化。而新手也可以直接以Tensorflow 2 0的方式思考,至少目前没...
2018-11-27 22:30:05 -
大数据学习路线指南(最全知识点总结)
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据...
2018-11-27 22:15:57