数据挖掘
-
Badoo的数据工程:每天处理 200 亿个事件
Badoo 是一个约会社交网络,目前每天处理 200 亿个事件,数据平台工程主管 Vladimir Kazanov 解释说。在 Skills Matter,他谈到了在这种规模下运行...
2019-08-20 15:14:26 -
入门数据科学,70% 的人都做错了
就像我在没有实际航海经验的情况下学会了航海物理学,大多数数据科学课程非常详细地介绍了一些算法,但却忽略了成功的数据科学项目...
2019-08-20 15:14:03 -
Python简史:开发者的小小副业如何成为全球最热
「第一次使用 Python 时,我就知道它很特别。它提高了代码的可读性,写 Python 代码是很愉快的过程。」Barry 回忆道。...
2019-08-20 15:13:19 -
数据科学家与数据分析师的三个区别
数据科学家和数据分析师有相同的目标:通过解释信息提供关键业务决策和趋势。但这些也为他们的角色带来了不同的技能、教育和经验水平...
2019-08-16 22:22:38 -
开发者 AI 转型指南
人工智能…好吧,目前看来,这项尖端技术现在是最流行的,同时也是一项会对人类产生决定性影响的技术。我们对人工智能的力量和它们...
2019-08-16 22:16:41 -
从小白到大师,这里有一份Pandas入门指南
在本文中,作者从 Pandas 的简介开始,一步一步讲解了 Pandas 的发展现状、内存优化等问题。这是一篇最佳实践教程,既适合用过 Pandas 的读...
2019-08-16 22:15:23 -
2020年及未来编程趋势预测:Rust将成主流,JavaS
虽说编程一直都是朝阳产业,但是在语言、框架日新月异、层出不穷的情况下,最怕的就是学错语言或者框架,因为缺乏市场和应用而白费...
2019-08-15 18:51:01 -
贝壳:流式数据的平台化实践与挑战
主要分享了贝壳找房的三个平台,以及流式数据处理的挑战和一些实战的经验...
2019-08-15 18:50:13 -
Hadoop衰落,数据湖项目开始失败,我们该如何应
Apache Hadoop 于 2006 年第一次在 IT 领域亮相,承诺为组织提供以往商用硬件从来没能达到的强大数据存储能力。...
2019-08-15 18:50:03 -
爬虫工程师:应该说我们是大数据行业的“苍蝇
后来“大数据”来了,无数互联网从业者从中嗅到了商机。但是这些人手上并没有大数据,于是他们开始用爬虫拼命地抓取互联网上的数据...
2019-08-15 18:49:31 -
五款面向未来的伟大编程语言
与上期文章的整理方法一样,我们仍然依靠宏观数据趋势进行预测。其中某些判断比较明确,也有一些可能出乎大家所料。闲言少叙,马上...
2019-08-15 18:49:18 -
有关数据治理的本质及实践,看这一篇就够了
本篇文章就结合理论研究和实践经验,从以下方面展开描述,帮助大家揭开数据治理的面纱。...
2019-08-15 18:48:58 -
18个月自学AI,2年写就三万字长文,过来人教你如
本文的阅读过程和小说不同,只读一次是无法理解和掌握所有内容的。我学数学的朋友告诉我,他们常常需要读至少 7 遍数学文本才能开始...
2019-08-15 18:48:16 -
Spark Streaming 调优实践
本文我们就来介绍一些能够提高应用性能的参数和配置。另外需要指出的是,优化本身是一个具体性很强的事情,不同的应用及落地场景会...
2019-08-15 18:47:12 -
LinkedIn使用Kafka日均处理消息超4.5万亿条
LinkedIn 在将 Kafka 捐献给 Apache 基金会后,也在持续打磨、优化着 Kafka 的使用与生态。随着规模的不断扩大,LinkedIn 更加关注于 Kafka 的可靠性...
2019-08-15 18:46:52 -
企业可以不要大数据,但必须要有“数据中台”
2015年,马云拜访名为Supercell的芬兰游戏公司,虽然这家公司仅有180人,但是他们开发新游戏的速度特别快,公司旗下游戏DAU已经突破1亿。...
2019-08-15 18:41:46 -
流式数据处理在百度数据工厂应用与实践
李俊卿关于《流式数据处理在百度数据工厂应用与实践》主题演讲,主要内容如下。...
2019-08-15 18:11:47 -
常见数据结构和Javascript实现总结
做前端的同学不少都是自学成才或者半路出家,计算机基础的知识比较薄弱,尤其是数据结构和算法这块,所以今天整理了一下常见的数据...
2019-08-14 14:20:24 -
数据科学和分析的热门市场
近年来,数据分析、集成、可视化的价值日益重要,许多企业最近在数据分析领域的收购也凸显了这一点。企业的首席信息官应优先考虑团...
2019-08-13 12:06:18 -
数千个 Amazon EBS 被暴露,大量敏感数据可能外泄
根据本届 Def Con 安全大会上公布的最新数据显示,不少公司、初创企业及政府机关无意中将内部文件泄露至云端。...
2019-08-13 11:47:44 -
常见的Hadoop十大应用误解
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威...
2019-08-13 11:47:19 -
从数据结构到算法:图网络方法初探
本文将根据近两年的综述对图网络方法做一个总结,为初入图世界的读者提供一个总体的概览。...
2019-08-13 11:47:03 -
合并和收购活动正在改变BI格局
从2018年7月Qlik公司收购Podium Data公司,到2019年6月Salesforce公司收购Tableau Software公司,过去的一年,BI经历了整合浪潮。...
2019-08-13 11:46:27 -
黑客利用勒索软件攻陷MongoDB数据库,210 万条记录
暴露在公共网络上的 MongoDB 数据库,已经成为勒索软件攻击者们的全新入侵目标。...
2019-08-13 11:45:43 -
PartiQL:一种用于所有数据的查询语言
数据正以前所未有的速度被收集和创造。这些数据大多旨在推动业务结果,但根据《哈佛商业评论》报道:“……平均而言,组织中不到一...
2019-08-13 11:44:05 -
我是一名数据科学家,但我对大数据持怀疑态度
都说未来是数据时代。数据说明一切,数据不会骗人。数据是罗塞塔之石,可破译一切人类代码。现实果真如此吗?纽约大学数据科学教授...
2019-08-13 11:43:02 -
使用 TiDB 进行实时数据分析
实时分析平台的架构选型是一个需要多维度权衡的问题。NoSQL 提供了非常低的延迟,但分析能力往往孱弱;Hadoop + MPP 引擎或者分析型数据库提...
2019-08-13 11:41:14 -
未来明星语言 Julia 或成 Python 劲敌
去年今日,MIT Julia Lab 推出了 Julia 1 0 版。一年来,它的表现如何?...
2019-08-13 11:40:52 -
前端必看的数据可视化入门指南
数据可视化研究的是,如何将数据转化成为交互的图形或图像等,以视觉可以感受的方式表达,增强人的认知能力,达到发现、解释、分析...
2019-08-13 11:40:14 -
民生银行数据中台体系的构建与实践
在大数据、人工智能、区块链等新兴技术的驱动下,各家银行纷纷利用新技术制定数字转型改革战略,寻找差异化经营的可行模式。...
2019-08-13 11:27:42 -
数据中台演进的四个阶段
未来服务线下企业的数据中台一定是「AI 驱动的数据中台」,这个中台的能力要包括「计算平台 + 算法模型 + 智能硬件」...
2019-08-13 11:26:50 -
简述Hadoop之后大数据的未来在谁的身上
在实时数据世界里,为什么我们还这么执着于Hadoop? 根据451 Research调查数据显示,围绕批处理架构的Hadoop仍然是大数据的代表技术,尽管其声...
2019-08-13 00:23:39 -
学Hadoop你必须要知道的
文章目录: 一、理论知识 1.Hadoop的整体印象 2.Hadoop的优势 3.Hadoop可以做什么 4.Hadoop结构 4.1 Hadoop存储--HDFS 4.2 Hadoop计算--MapReduce 4.3 Hadoop资源管...
2019-08-07 23:08:35 -
如何在GPU上加速数据科学
笔者按,数据科学家需要算力。无论您是用 pandas 处理一个大数据集,还是用 Numpy 在一个大矩阵上运行一些计算,您都需要一台强大的机器...
2019-08-07 23:02:29 -
即使对数据作了匿名化处理,找出你是谁还是很
这个模型背后的数据库汇集了来自五个数据源的210个不同数据集,其中包括美国人口普查信息。研究人员将这些数据输入到该机器学习模型...
2019-08-07 16:11:49