数据挖掘
-
零基础就懂的Hadoop架构原理
HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起...
2019-11-03 15:52:51 -
如何用10个大数据技术方案解决一个问题
数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技...
2019-11-03 15:52:24 -
你应该学习的20个Python代码段
Python 是一门优秀的编程语言。 可读性和设计简单性是其广受欢迎的两个主要原因。...
2019-11-03 15:52:13 -
如何成长为优秀的数据分析师?
在数据科学团队中,数据分析师能把所有技术专家都协调起来。数据分析师通常能为数据科学家或统计学家指明研究方向,说明哪些假设值...
2019-11-03 15:52:03 -
PinalyticsDB:基于HBase的时间序列数据库
在本文中,我们将共同了解 Pinterest 面临的性能与可扩展性挑战,以及我们如何通过服务的重新设计构建出更为强大的 PinalyticsDB 新形态。...
2019-10-31 23:32:07 -
数据分析的7个步骤
正如马云所说,数据时代已经来临。现阶段,无论是个体、组织还是公司,无时无刻不产生各种数据,处于这样一个环境下,如何对数据进...
2019-10-31 23:29:43 -
7个Python特殊技巧,助力你的数据分析工作之路
如何提升数据分析能力?Peter Nistrup 根据自身经验列出了 7 个有用工具。...
2019-10-29 22:57:36 -
大数据公司接连被查,爬虫技术惹的祸?
今年3月以来,北京、上海、深圳、杭州等地大数据公司被查消息陆续传出。这些地区监管部门与警方正加大对行业乱象整治力度,十余家大...
2019-10-26 11:22:59 -
PinalyticsDB:基于HBase的时间序列数据库
在本文中,我们将共同了解 Pinterest 面临的性能与可扩展性挑战,以及我们如何通过服务的重新设计构建出更为强大的 PinalyticsDB 新形态。...
2019-10-26 11:22:19 -
大数据时代下的数据集成,与落伍的ETL技术
在大型企业中保证业务数据的一致性是一个非常棘手的问题。一般来说,如跨国型公司的客户或产品相关数据,往往有多个来源。这就导致...
2019-10-26 11:19:58 -
建数据中台,治理烟囱式应用
数据中台本质上是要实现数据能力的共享和复用,从而方便数据资料的整合,助力企业向数据驱动迈进。...
2019-10-24 23:00:11 -
数据科学:合成数据如何解决匿名化问题?
现在,随着GDPR的生效,企业在保护数据时必须格外小心。传统匿名通常不是真正的匿名,最终个人身份是可以识别的。对数据添加额外级别...
2019-10-24 22:58:18 -
Python 3.8 究竟要不要升级?用过之后的这样说
距 Python 3 8 稳定版正式发布已经过去了小半个月,不少 Python 常驻用户已经将 Python 更新到了 3 8 版本,也有一些朋友担心代码运行兼容性等...
2019-10-24 22:56:34 -
高达62亿美元!大数据初创公司 Databricks 再获4亿
由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成 4 亿美元 F 轮融资,最新估值高达 62 亿美元,与今年 2 月份完成 E 轮融资时...
2019-10-24 22:55:26 -
数据挖掘巨擘俞士纶:真实数据源不止一个,学
数据挖掘领域巨擘美国伊利诺大学芝加哥分校俞士纶教授做了“Broad Learning:A New Perspective on Mining Big Data”(广度学习:大数据挖掘的新视角...
2019-10-24 22:54:10 -
从bug看11种编程语言演化史,果然如今Python最流行
在本文中,作者选择了 11 种最流行的编程语言(通过 Stack Overflow 标签出现的频率衡量),希望可以找出这些问题的共性及差异性。...
2019-10-24 22:53:44 -
编程大神进阶之路:Python技巧小贴士
本文会试着介绍一些其它文章没有提到的小技巧,这些小技巧也是我平时会用到的的。...
2019-10-24 22:43:06 -
不交学费也能成为数据科学家,这里有一条免费
我在成为数据科学家之前没有经历过任何正式的专业教育。本文将分享我的个人课程表,无需支付数千美元也能学习数据科学。...
2019-10-24 22:42:38 -
数据科学中一些不常用但很有用的Python库
提到数据科学的python包,大家想到的估计是numpy,pandas,scikit-learn之类的,这里给大家介绍一些不常用,但是非常有用的python包,就像是痒痒...
2019-10-20 00:22:36 -
数据湖需要一次“二次手术”
“2016 年,Gartner 公司估计有 60% 的大数据项目遭遇失败。”而在一年之后,Gartner 分析师 Nick Heudecker 表示原本 60% 这一比例“估计得太过保守...
2019-10-20 00:22:17 -
数据分析与数据科学的未来
通过对IADSS联合创始人Usama Fayyad博士在2019年波士顿ODSC的主题演讲后的采访,了解当前和未来的数据科学问题以及可能的解决方案。...
2019-10-20 00:21:19 -
详解被阿里腾讯视作核心机密的大数据平台架构
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0 x进化到目前的2 6版本。...
2019-10-20 00:20:50 -
Amazon消费者业务宣布永久关闭Oracle数据库
就在刚刚,一向喜欢写博客的AWS首席布道师Jeff Barr在AWS官网宣布:亚马逊消费者业务永久关闭Oracle数据库。...
2019-10-20 00:20:31 -
官宣!开源Delta Lake正式加入Linux基金会,共同打
Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、...
2019-10-20 00:20:17 -
Apache Flink发布新框架,帮助开发者构建有状态应
近期,Apache Flink开源项目背后的公司Ververica发布了一个新的框架——Stateful Functions,旨在将Flink扩展到分布式的有状态应用程序中。...
2019-10-20 00:19:16 -
对PB级非结构化数据的要求
众所周知,非结构化数据很难管理。但是,当组织的非结构化数据资产超过PB阈值时,控制数据集将带来一系列全新的挑战。...
2019-10-20 00:18:46 -
数据可视化常见误区
在大数据时代里,不少人对数据可视化存在一定的误解,一些数据分析人员在工作中难免出现各种各样的错误,这会降低商业分析的价值,...
2019-10-16 22:37:26 -
《机器数据实战攻略》
不管你称它为什么,机器数据都是任何一家组织利用最不充分、价值也最易被低估的资产。而且,很遗憾,它们通常只保留很短一段时间后...
2019-10-16 22:33:43 -
在Python中处理JSON数据
作为一名程序员,我决定不使用multiple columns。相反,所有参数将存储在单个column中(作为数据库表中的字符串)。Spark应用程序将负责读取字符...
2019-10-16 22:32:01 -
8月Github上7个值得关注的数据科学项目
本文带你来看看GitHub上创建于2019年8月的7个数据科学项目。笔者所选项目的范围十分广泛,涉及从机器学习到强化学习的诸多领域。...
2019-10-15 22:55:51 -
微软数据可视化工具SandDance已经开源
SandDance是微软研究院很受欢迎的数据可视化工具,今年年早些时候微软已经将该工具开源...
2019-10-15 22:55:32 -
传统数据库架构已经不适合新兴世界了?
他分析了传统数据库的架构不适合新兴的世界的原因,提出了要构建事件流平台,把数据库和数据流结合在一起的目标。...
2019-10-15 22:51:41 -
数据科学技能中,哪些是核心技能,哪些是热门
我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想...
2019-10-15 22:50:47 -
2019年六个不错的数据分析工具
Lewis Chou在Medium上分析了3类6种工具的特点和适用场景,看完这篇文章,相信你就可以知道了。...
2019-10-15 22:49:36 -
企业选择数据湖架构的5大理由
随着大数据的重要性和接受度的提高,人们也越来越需要考虑如何组织和托管大数据。答案之一是数据湖,在数据准备和组织方面最广泛的...
2019-10-15 22:27:16