数据挖掘
-
一文盘点数据集市和数据仓库的差异(附链接)
当一家企业开始应用商业智能(Business Intelligence,BI)的战略和技术时,首先需要明确数据集市和数据仓库的区别。理解这种差异将决定你采用何...
2018-11-13 23:46:25 -
精选Python开源项目Top10!
过去一个月里,我们对近 250 个 Python 开源项目进行了排名,并挑选出热度前 10 的项目。...
2018-11-13 23:46:11 -
TensorFlow 三周岁!2.0 版本将于 2019 年发布
转眼间,TensorFlow 就迎来三周岁生日。2015 年 11 月,谷歌宣布开源 TensorFlow 深度学习框架,这一框架基于谷歌 DistBelief 框架。...
2018-11-13 23:45:55 -
全球数据竞赛Top解决方案开源整理与汇总
想做数据科学家吗?来看看前人大神走过的路吧!本文是来自Github的国内外数据竞赛中Top解决方案总结贴,涵盖NLP、计算机视觉等领域,干货满...
2018-11-13 23:45:32 -
三大方法保护Hadoop集群免遭攻击!
约在两年前,开源数据库解决方案MongoDB以及Hadoop曾遭受过大量恶意攻...
2018-11-13 23:33:05 -
如何选择大数据的编程语言
有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一...
2018-11-13 23:32:42 -
十分钟了解大数据处理的五大关键技术及其应用
数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述...
2018-11-13 23:32:01 -
即将发布的 Apache Spark 2.4 都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。...
2018-11-11 23:47:49 -
零售业应用大数据分析的六大挑战
零售业是最传统的买卖双方互动平台。早在电子商务和移动商务崛起前,零售商们就以别出心裁的产品陈列,极具竞争力的价格和有效的销...
2018-11-11 23:41:09 -
如何进阶成为一名数据科学家?
数据科学家-21世纪最性感的工作-可以说是每个数据分析师的最终目标,既然拿到的Stack Overflow调查问卷中含有数据分析师和数据科学家的数...
2018-11-11 23:37:57 -
用Spark 来做大规模图形挖掘:第一部分
如果您是一名工程师,您很可能在完成搜索和查找算法时用过图形的数据结构。您是否也曾在机器学习问题上用过呢?...
2018-11-11 23:05:15 -
干货 | 大数据分析现状、模式与常用4大分析技术
近年来互联网的高速发展引领人类进入了一个信息量爆炸性增长的时代。每个人的生活中都充满了结构化和非结构化的数据。随着人类生活...
2018-11-05 14:51:21 -
3个实用的数据科学工具
数据和分析为数字化转型提供了燃料,而企业充分发挥这些燃料的唯一途径是,为其统计学家、数据专家和企业分析专家提供正确的数据科...
2018-11-05 14:50:26 -
大数据分析在新型智慧能源建设中的应用
智慧一概念已经提出很多年,这是一种全新的能源形式,包括符合生态文明和可持续发展要求的相关能源技术和能源制度体能源这系。智慧...
2018-11-05 14:47:15 -
NLPIR大数据语义系统KGB技术引领新方向
随着网络时代的到来和普及,现在大量的信息扎堆,在给人们代理快捷方便的同时也给我们带来一个难题,就是大量的数据如何消化以及真...
2018-11-05 14:46:44 -
Gartner数据库魔力象限解读:中国队成黑马
近日,Gartner发布了《2018年数据库魔力象限》。报告指出,在竞争日益激烈的市场中,评估OPDBMS(雷锋网注:操作型数据库管理系统)选项的数...
2018-11-02 17:44:17 -
1年将30PB数据迁移到Spark,eBay的经验有何可借鉴之
从今年开始,eBay开始将这个庞大的数仓由Teradata向Spark做迁移,使用eBay自己开发的工具,迁移过程中90%的工作都可以由自动化完成。与此同...
2018-11-02 15:23:27 -
为什么Jupyter是数据科学家们实战工具的首选?
Jupyter 是一款免费、开源的交互式 web 工具。研究人员可以利用该工具将软件代码、计算输出、解释文本和多媒体资源组合在一个文档中。...
2018-11-02 15:21:44 -
大数据分析现状、模式与常用4大分析技术探讨
近年来互联网的高速发展引领人类进入了一个信息量爆炸性增长的时代。每个人的生活中都充满了结构化和非结构化的数据。随着人类生活...
2018-11-01 23:20:47 -
最受欢迎的5种数据科学工具
最近我们采访了各个行业中经验丰富的数据科学家,询问他们最常使用的工具。下面是我们从中精心挑选的5个工具。...
2018-11-01 23:19:32 -
数据科学家应当了解的五个统计基本概念
从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通...
2018-11-01 23:18:51 -
手把手用Python教你分析运筹学薪资状况
由于近些年互联网和计算机的发展,数据对于各个行业来说是一块新的“金矿”,再加上近两年人工智能的兴起,数据的重要性更是越加的...
2018-11-01 19:02:49 -
从A到Z,26个实用Python模块/函数速览
作为一名数据科学家,使用Python称得上是我的家常便饭。一路走来,现在我已经搜集了不少有用的小技巧,是时候该把它们分享给大家了!...
2018-11-01 19:00:18 -
美团深度学习系统的工程实践
本文将首先列举部分深度学习算法所需的计算量,然后再介绍为满足这些计算量,目前业界比较常见的一些解决方案。最后,我们将介绍美...
2018-10-31 13:21:03 -
【数据分析】目标客户的特征分析
数据化运营中的数据分析项目类型比较多,涉及不同的业务场景、业务目的和分析技术。...
2018-10-31 13:18:29 -
爬数据展示国内Go的市场行情到底如何?平均年薪
因为平时工作中,我也是使用 Golang,看到这些榜单数据之后,我就想了解一下国内目前 Golang 的市场行情如何,于是进行了一次数据抓取与...
2018-10-31 09:10:55 -
一文理解 Apache Hadoop 机架感知
分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的...
2018-10-31 09:09:34 -
一文读懂Apache Flink技术
Flink是一款分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数...
2018-10-29 23:19:58 -
Spark 踩坑记—Spark Streaming+Kafka
本文首先对 spark streaming 嵌入 kafka 的方式进行归纳总结,之后简单阐述 Spark streaming+kafka 在舆情项目中的应用,最后将自己在 Spark Streaming+...
2018-10-29 23:19:49 -
九个经典有趣的数据挖掘案例
全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出...
2018-10-27 14:17:36 -
大数据的相关关系分析法更准确、更不易受偏见
但是在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与...
2018-10-27 14:16:11 -
Adaptive Execution 让 Spark SQL 更智能更高效
本文介绍的 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点,执行计划可动态调整、...
2018-10-27 14:14:25 -
维基百科中的数据科学:手把手教你用Python读懂
维基百科的规模之大,可称为世上最大的百科全书,但也因此稍让数据工程师们感到头疼。当然,有合适的工具的话,数据量的规模就不是...
2018-10-27 11:58:21 -
教你用几行Python和消费数据做客户细分
细分客户群是向客户提供个性化体验的关键。它可以提供关于客户行为、习惯与偏好的相关信息,帮助企业提供量身定制的营销活动从而改...
2018-10-27 11:55:50 -
深度文章:初识智能数据分析
智能数据分析,它是指运用统计学、模式识别、机器学习、数据抽象等数据分析工具从数据中发现知识的分析方法。智能数据分析的目的是...
2018-10-27 11:46:05