数据挖掘
-
Matplotlib数据可视化最有价值的50个图表(附完整
本文总结了50个图表绘制方法,对于数据分析的可视化有莫大的作用。...
2019-01-16 22:53:11 -
实现大数据可视化的10个技巧
大数据技术的有效可视化不应该只是为管理层绘制的漂亮图片。专家表示,企业可通过考虑布局、迭代设计、吸引用户和了解业务需求来改...
2019-01-16 00:07:34 -
如何开始一个数据科学项目?
数据科学对初创公司有多重要?在初创公司中,数据科学项目流程有什么说道吗?作者在这篇文章中为那些想打造一直属于自己的数据科学团队...
2019-01-16 00:06:04 -
为什么数据科学家往往很喜欢 Kubernetes?
Kubernetes 为职业数据科学家提供了无与伦比的功能组合。简化软件开发工作流的特性也为数据科学工作流提供了支持。...
2019-01-16 00:04:40 -
GitHub 年度盘点:Deno 赶超 Node,跃升第四!
本文通过对比各项目过去 12 个月在 GitHub 上新增 star 数量,来评估其在 2018 年度的受关注程度,进而选出 2018 年度 JavaScript 领域崛起的明星...
2019-01-16 00:04:19 -
Hadoop巨头完成合并,成为全球第二大开源软件公
去年 10 月份,大数据领域 Hadoop 巨头 Cloudera 与 Hortonworks 宣布合并,给业界带来不小震动。...
2019-01-14 23:25:56 -
从 Hive 迁移到 SparkSQL,有赞的大数据实践
有赞数据平台从 2017 年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量 5000 个,占离线作业数目的...
2019-01-13 00:34:29 -
2018 中国开发者生态报告:Java 最流行
2018年,JetBrains 发起了其标准的年度调查项目,开发人员生态系统调查 (The Developer Ecosystem 2018)。...
2019-01-13 00:33:31 -
Spark+Alluxio性能调优十大技巧
本文介绍了在Alluxio上运行Spark时,对于实际工作负载性能调优的十大技巧。...
2019-01-13 00:33:10 -
面向数据科学和 AI 的开发库推荐:Python、R 各
他从 2018 年初开始写作并发布《数据科学和人工智能每周文摘:Python & R》系列文章,为数据科学家介绍,能真正帮助他们更好地完成各项任...
2019-01-11 12:58:41 -
开源数据库接连修改开源协议,下一个会是谁?
近日,数据库流行度排行榜网站 DB-Engines 发布了 2018 年数据库排名情况,其中 PostgreSQL 蝉联“年度数据库”,MongoDB 和 Redis 分列亚军和季军...
2019-01-11 12:57:18 -
人工智能和数据科学的七大 Python 库
本文作者Favio Vázquez从2018年开始发布《数据科学和人工智能每周文摘:Python & R》系列文章,为数据科学家介绍最好的库、repos、packages以及工...
2019-01-11 12:56:28 -
用Python玩转时序数据
本文简要介绍了如何从零开始使用Python中的时间序列。这包括对时间序列的简单定义,以及对利用pandas访问伦敦市居民智能电表所获取数据...
2019-01-10 00:02:22 -
打破认知:程序设计 = 算法 + 数据结构?
很多写程序的人都听说过一个公式:程序设计 = 算法 + 数据结构,我也相信很多人认为算法是编程里的基础。...
2019-01-10 00:01:52 -
深入浅出Hadoop YARN
在详细介绍 Yarn 之前,我们先简单聊聊 Yarn ,Yarn 的全称是 Yet Another Resource Negotiator,意思是“另一种资源调度器”,这种命名和“有间客栈...
2019-01-08 23:12:13 -
微软真的拥抱开源了吗?
Java 是Sun发明的语言, Java EE是各大厂商一起搞的标准,为了对抗他们,微软当年特地搞出了新语言C#和.NET战略。...
2019-01-08 23:11:43 -
算法基础:五大排序算法Python实战教程
排序是每个软件工程师和开发人员都需要掌握的技能。不仅要通过编程面试,还要对程序本身有一个全面的理解。不同的排序算法很好地展...
2019-01-08 22:58:38 -
一份关于kaggle特征构建技巧和心得
本文是一份关于如何在Kaggle排行榜上取得出色成绩的提示,包含经纬度数据的处理。...
2019-01-05 13:14:27 -
关于分析工作人们会犯的三个错误
您是否按预期地使用了该报告数据?坦率地说:你是否读过?...
2019-01-03 00:30:28 -
【详解】如何避免大数据PaaS平台建设中的这些
现在一个企业或个人搞个hadoop集群不是难事,除非你想搞上千个节点,难得是如何才能用好这个平台,因此,我们提出要建设一个PaaS平台,...
2018-12-28 23:28:42 -
TigerGraph 独家解读:图数据库的现状与未来
随着人工智能技术的发展,市场对于性能的要求越来越高,然而光靠硬件的升级已经无法完全满足使用者的需求,配套的软件产品如果跟不...
2018-12-28 22:57:41 -
如何成为数据分析师系列(二):可视化图表进
大多数人对于基础的数据图表都有一定的认知,但却未必清楚,在哪一种场景使用何种图表,本文主要给大家介绍基础图表的特性,让大家...
2018-12-28 22:56:51 -
如何成为数据分析师系列(一):可视化图表初
大多数人对于基础的数据图表都有一定的认知,但却未必清楚,在哪一种场景使用何种图表,本文主要给大家介绍基础图表的特性,让大家...
2018-12-28 22:56:32 -
深入理解Hadoop之HDFS架构
Hadoop分布式文件系统(HDFS)是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异是值得...
2018-12-28 22:54:53 -
舍弃Python,为什么知乎选用Go重构推荐系统?
重构推荐系统需要考虑哪些因素?如何做技术选型?重构的过程中会遇到哪些坑?希望知乎的踩坑经验能给你带来一些思考。...
2018-12-27 22:19:48 -
Analytics Zoo:在Spark上实现分布式Tensorflow和BigDL管
本文提供了几个具体的教程,介绍如何使用 Analytics Zoo 在 Apache Spark 上实现分布式 TensorFlow 管道,以及在实际的用例中使用 Analytics Zoo 实现端...
2018-12-27 21:38:34 -
数据科学家“恐怖故事”
本文讲的是作者Vincent Vanhoucke所经历的恐怖故事,完全真实,这些小事故也决定了这位Google首席科学家的职业生涯。...
2018-12-26 13:15:09 -
2018 年最受欢迎的 Python 库,你都用过吗?
近日,数据科学网站 KDnuggets 评选出了顶级 Python 库 Top15,领域横跨数据科学、数据可视化、深度学习和机器学习。...
2018-12-26 13:12:34 -
一文盘点5种聚类算法,数据科学家必备!
本文为你分析基本聚类方法的实现概念,并给出每种算法的优缺点及实际的应用场景。...
2018-12-25 23:44:54 -
Wikibon预测:2019年大数据分析市场将更加动荡
展望未来,这一趋势将持续下去,但是未来三到五年流计算将让这一趋势黯然失色。Kafka、Flink和Spark Structured Streaming等低延迟流媒体平台正...
2018-12-25 23:43:04 -
理解随机森林:基于Python的实现和解释
随机森林是一种强大的机器学习模型,得益于各种强大的库,现在人们可以很轻松地调用它,但并不是每一个会使用该模型的人都理解它的...
2018-12-24 23:47:58 -
每3位新码农中就有2个是单身?来自31000人的调查
freeCodeCamp 做了一个名为「2018 New Coder Survey」的调研,以了解成年人学写代码的状况。最终他们收到了超过 31000 个受访者的回答。...
2018-12-24 23:40:01 -
为什么Kaggle不会让你成为一名出色的数据科学家
毫无疑问,Kaggle是非常适合学习数据科学的平台。许多数据科学家在Kaggle上投入了大量时间。但同时,你不应该只依靠Kaggle来提高数据科学...
2018-12-22 23:54:30 -
Python 开源项目最新月榜TOP 10
2018年11月的Python开源项目榜单出来啦,本次榜单参评的开源项目有250个,综合考虑各项指标,评出了最受欢迎的10个项目。...
2018-12-20 23:26:09 -
Python「八宗罪」
本文作者有一群 geek 朋友,经常一起讨论技术话题,有时候也会谈到编程语言。「I hate Python」,作者表示。他对 Python 厌恶至极。即使有现...
2018-12-20 23:25:36