数据挖掘
-
Python数据可视化的四种简易方法
在本文中,将介绍另外4个数据可视化方法,但稍微复杂一些,你可以在看完上一篇文章介绍的基本方法之后再用。...
2018-11-26 22:51:24 -
Hadoop大数据平台架构与实践
Apache Hadoop软件库是一个框架,允许使用简单的编程模型,在计算机集群分布式地处理大型数据集。...
2018-11-25 13:25:47 -
以内部视角来观察10个数据分析的成功案例
如果把数据看成是一种新的石油,那么知道如何将其提炼成可操作的情报则是释放其潜力的关键。为此,首席信息官们正在利用预测分析、...
2018-11-23 13:11:41 -
手把手教你用Python进行Web抓取(附代码)
本教程以在Fast Track上收集百强公司的数据为例,教你抓取网页信息。...
2018-11-23 13:09:55 -
一文读懂R中的探索性数据分析(附R代码)
探索性数据分析(EDA)是数据项目的第一步。我们将创建一个代码模板来实现这一功能。...
2018-11-23 13:07:25 -
现代数据架构的7个关键技术
数字化转型的核心是数据,它已成为商业中最有价值的事务。由于格式不兼容,传统数据库的局限性,以及无法灵活地合并来自多个来源的...
2018-11-22 15:04:52 -
文本挖掘,带你看金庸笔下不一样的恩怨情仇
提起中国武侠小说,金庸先生是绕不开的名字,十余年间以汪洋恣肆的想象力,写下15部作品。可用 "飞雪连天射白鹿,笑书神侠倚碧鸳 "来...
2018-11-22 15:04:28 -
算法歧视?大数据折射人类社会的偏见与阴暗
在计算机领域,有一句非常有名的缩写是GIGO(Garbage in, Garbage Out),翻译过来就是说,输入的如果是垃圾数据,那么输出的也将会是垃圾数据。...
2018-11-22 15:03:23 -
大数据主要分析模式和分析技术
大数据时代所分析的数据的最主要特征是“多源异构”,其分析过程是逐层抽象、降维、概括和解读的过程。...
2018-11-22 15:02:27 -
大数据分析技术与实战之 Spark Streaming
Spark是基于内存的大数据综合处理引擎,具有优秀的作业调度机制和快速的分布式计算能力,使其能够更加高效地进行迭代计算,因此Spark能...
2018-11-22 13:13:44 -
除了冒泡排序,你知道Python内建的排序算法吗?
对于编程算法,可能很多读者在学校第一个了解的就是冒泡排序,但是你真的知道 Python 内建排序算法 list sort() 的原理吗?它使用的是一种快...
2018-11-21 13:12:32 -
从睫毛膏到太空垃圾,2018年度最佳数据可视化作
为了致敬世界各地为数据可视化作出贡献的艺术家和设计师们,我们收集了2018年最优秀的一批数据可视化作品。当然,其中也包含了一些...
2018-11-21 13:11:21 -
Hadoop架构已凋谢吗 ?
Hadoop架构的人气在下滑,这可能归咎于几个不同的因素,尤其是机器学习的兴起。...
2018-11-21 13:11:06 -
世界上最好的Python编辑器是什么?我投 PyCharm一票
世界上最好的 Python 编辑器或 IDE 是什么?炫酷的界面、流畅的体验,我们投 PyCharm 一票,那么你呢?本文介绍了 PyCharm、Jupyter Notebook 和 Spyde...
2018-11-21 13:10:33 -
用大白话告诉你小白都能看懂的Hadoop架构原理
Hadoop 是目前大数据领域最主流的一套技术体系,包含了多种技术,例如 HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计...
2018-11-21 13:10:16 -
一个数据科学家的三大弱点
显然,真的要去谈论我们的弱点是很荒唐可笑的,我们为什么要提我们做不到的事情?虽然工作申请和LinkedIn不鼓励我们披露我们的弱点,但...
2018-11-19 13:11:42 -
让你事半功倍的小众Python库
Python 是世界上发展最快的编程语言之一,然而,使用 Pandas、Scikit-learn、Matplotlib 等常见库在解决一些特殊的数据问题时可能并不实用,本文...
2018-11-19 13:11:07 -
英语不行?你可以试试 TensorFlow 官方中文版教程
现在 TensorFlow 有官方中文版教程啦,以前的英文版 Tutorials 有了对应的中文翻译。各位还在 TensorFlow 门前徘徊的开发者们,现在可以对着中文...
2018-11-19 13:10:52 -
除了R、Python,还有这些重要的数据科学工具
在你向一些大神请教的时候,他可能也会推荐你学习这两个高级编程语言,然后顺便在推荐你了解一下SQL以及Math。如果讲究点的,可能还会...
2018-11-17 22:02:26 -
用Spark 来做大规模图形挖掘:第一部分
对于数据科学家,图形是一个非常令人着迷的研究课题,标记数据的方法在处理机器学习问题并不总是有效。图形在无监督上下文中非常强...
2018-11-16 13:16:46 -
Python数据科学“冷门”库
在本文中,我们将看到一些除了常用的像pandas、scikit-learn、 matplotlib之外的数据科学任务的Python库。虽然一看见像pandas,scikit-learn这些库就让人...
2018-11-16 13:08:02 -
Top 7大开源数据可视化分析工具!
目前,我们可以在市场上找到很多用于网络分析和数据可视化的开源工具,例如NetworkX,R和Gephi中的iGraph包等。...
2018-11-15 23:26:27 -
如何选择大数据的编程语言
没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说,如今大数据方面有三种语言可以选择:R、Python和Scala,外...
2018-11-15 23:26:10 -
三大方法保护Hadoop集群免遭攻击!
自今年以来,不少恶意软件开始频繁向Hadoop集群服务器下手,受影响最大的莫过于连接到互联网且没有启用安全防护的Hadoop集群。...
2018-11-15 23:25:40 -
Presto如何带来最好的大数据分析师
如果您的职位类似于Data Analyst,VP Analytics,分析主管等,您就知道您的角色在公司中的重要性。...
2018-11-15 23:22:50 -
大数据实战项目:中国移动运营分析实时监控平
1 项目背景中国移动公司旗下拥有很多的子机构,基本可以按照省份划分 而各省份旗下的充值机构也非常的多...
2018-11-15 23:19:48 -
MapReduce运行原理
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主...
2018-11-15 23:18:44 -
保护Hadoop集群免受恶意软件攻击的三种方法
自今年以来,新的恶意软件——XBash和DemonBot发动了多起针对Apache Hadoop集群服务器进行的比特币挖掘和DDoS攻击。这种恶意软件可以扫描互联...
2018-11-15 23:17:53 -
Apache Spark 2.4 正式发布,重要功能详细介绍
美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2 4 带来了许多新功能,如下:...
2018-11-15 23:12:32 -
比拼 Kafka, 大数据分析新秀 Pulsar 到底好在哪
一年一度由世界知名科技媒体 InfoWorld 评选的 Bossie Awards 于 9 月 26 日公布,本次 Bossie Awards 评选出了最佳数据库与数据分析平台奖、最佳软...
2018-11-15 22:59:05 -
Hadoop真的要死了吗?
10 月 3 日,Hortonworks 宣布将与其主要竞争对手 Cloudera 合作创建一家年收入约为 7 3 亿美元、拥有 2,500 名客户、市场估值达 52 亿美元的公司,...
2018-11-14 13:14:27 -
通过数据可视化发现了“油管”的秘密
中国有优酷,美国有“油管”(AKA Youtube)。这个视频成为人们日常网络娱乐消遣的时代,大家一定都很关心这些视频网站都暗藏了哪些秘密...
2018-11-14 13:13:58 -
大数据算法还是影视圈规则?Netflix最终选择好莱
《华尔街日报》近日撰文称,随着美国视频流媒体企业Netflix深入发展自制内容,该公司招募了大量来自来自影视界的人才,组成内容部门,...
2018-11-13 23:51:21 -
大数据的问题是如何挖掘数据的连接价值
“大数据目前发展的问题,不再是数据的数量不足,而是如何挖掘数据的连接价值。”在近日举办的“第四届世界大城市交通发展论坛”上...
2018-11-13 23:48:53 -
数据分析的发展和演变经过哪几个阶段
对于那些已经意识到其潜力的人群来说,科技是一种福音,然而对于那些无法跟上其快速发展的人群来说,这也是一种考验。如今,几乎每...
2018-11-13 23:47:15