数据挖掘
-
加快数据科学项目的五个自动化工具
数据科学影响了来自不同行业的许多企业。尽管数据科学已经成为“21世纪最吸引人的工作”,但还有一项技术正变得越来越突出。...
2019-09-22 10:17:08 -
迭代列表不要For循环,这是Python列表推导式最基
如果你还在使用 For 循环迭代列表,那么你需要了解了解列表推导式,看看它的基本概念都是什么。...
2019-09-22 10:16:53 -
想提高计算速度?作为数据科学家你应该知道这
每个数据科学项目迟早都会面临一个不可避免的挑战:速度问题。使用更大的数据集会导致处理速度变慢,因此最终必须想办法优化算法的...
2019-09-22 10:16:37 -
大数据处理的五大关键技术及其应用
数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述...
2019-09-22 10:15:04 -
Router-Based HDFS Federation 在滴滴大数据的应用
HDFS 的 Master Slave 架构,使得其具有单点瓶颈,即随着业务数据的大规模膨胀,Master 节点在元数据存储与提供服务上都会存在瓶颈。...
2019-09-22 10:12:40 -
Splunk Ventures以1.5亿美元启动新一代数据分析技术
今世界前所未有的创新成果正在改变和改善着我们的生活方式。技术在给各大行业带来根本性的变化,在促使大大小小的企业实现全球化,...
2019-09-22 10:10:21 -
Hadoop之殇:没有任何单一技术能重塑整个企业I
近十年来, Hadoop 一直是“大数据”领域的典型代表。它新鲜,它开源,它催生出整个产品与供应商市场,而它的灵感则来自技术培训领域各...
2019-09-22 10:10:10 -
腾讯万亿级大数据组件 TubeMQ 正式开源
TubeMQ 的原型是腾讯数据平台部在2013年自研的分布式消息中间件系统(MQ),专注于大数据场景下海量数据的高性能存储和传输,长期服务微信...
2019-09-22 10:09:25 -
什么是数据湖,它又是如何作用于大数据分析的
一般情况下,要使大数据项目成功,至少需要两件事:其一,知道需要什么可操作的数据;其二,获得正确的数据来进行分析和利用,以实现...
2019-09-22 10:08:11 -
Hadoop发生了什么?我们该如何做?
Apache Hadoop出现在IT领域是在2006年,它可以支持使用廉价的商用硬件来存储海量数据。从某种意义上来说,Hadoop帮助我们迎来了大数据时代...
2019-09-22 10:07:43 -
数据分析师必看,你认识AB常见的10个错误
这是 W Edwards 的依据名言,它表明,A B 测试对于做出良好的商业决策来说至关重要。在 Manomano,我们向数百万用户展示数百万 DIY 和园艺产品...
2019-09-22 10:06:55 -
从一个浪潮案例看海量数据的分级保护应用
移动互联时代,企业都面临着海量数据带来的挑战,有一些企业驯服了海量数据,实现了“存的下、算的出”,但即使如此,这些企业很少...
2019-09-17 22:45:34 -
加快数据科学项目的五个自动化工具
数据科学影响了来自不同行业的许多企业。尽管数据科学已经成为“21世纪最吸引人的工作”,但还有一项技术正变得越来越突出。...
2019-09-17 22:44:25 -
个推应用统计:App数据促转化
随着移动互联网的发展,大数据和AI技术的进一步应用,App有了数据的指导,开始讲究方法论。...
2019-09-17 22:44:07 -
滴滴宋世君:DS(数据分析师),究竟是做什么的?
数据分析的本质就是要寻找规律,寻找那些数据信息中隐含,但是别人还没发现的规律。我们常说的统计推断、因果关系、增长推动、预测...
2019-09-17 22:42:56 -
一个数据科学负责人眼中的数据科学:太无聊了
数据科学家的工作是否如你想象一般,每天建模型,调整参数,充满了乐趣和挑战?...
2019-09-16 23:17:46 -
10 个不为人知的 SQL 技巧
在 SQL 中,我们不关心数据库是如何检索信息的,就可以得到结果。本文介绍了使用声明式 SQL10 个不为人知的技巧。...
2019-09-16 23:16:23 -
在数据科学领域,Rust 会是 Python 的最佳替代方案
在本篇文章中,作者将在 Rust 上移植一个简单的神经网络实现。他的目标是探索 Rust 中的数据科学工作流在性能和工程学上的表现。...
2019-09-16 23:15:58 -
BERT, RoBERTa, DistilBERT, XLNet的用法对比
最近,又提出了几种方法改进BERT的预测指标或计算速度,但是始终达不到两者兼顾。XLNet和RoBERTa改善了性能,而DistilBERT提高了推理速度。...
2019-09-16 23:14:50 -
为什么每个组织都需要数据分析师
如今,当组织需要从数据中获得一些见解时,他们首先倾向于寻找数据科学家的帮助。但这真的是一个更好的选择吗?人们需要了解数据科学...
2019-09-16 23:13:00 -
大数据平台对智慧机场运行效率的提升与改造
本文提出的首都机场新一代大数据平台是基于整体机场业务流程的数据分析平台,我们希望借助该平台的数据集成和分析的能力提升机场整...
2019-09-14 22:15:53 -
从大数据的角度来谈谈运维监控这件事儿
为什么要从大数据的角度来看监控这件事儿呢?首先,以大家最熟悉的服务器监控为例,虽然原理很简单,但从数据角度来看,其仍是一个典...
2019-09-14 22:15:28 -
国内外15大BI数据可视化工具
在本文中,我们将讨论以数据可视化和分析为特征的国内外共15大BI工具,其中国外我们选了10个国内5个,排名不分先后,为方便起见,本文...
2019-09-14 22:14:50 -
Python,Numpy,Pandas…数据科学家必备排序技巧
对数据进行分类整理是数据科学家和数据工程师的基础工作。Python会提供许多内置库,优化排序选项。有些库甚至可以同时在GPU上运行。令...
2019-09-12 00:03:15 -
Python数据分析-看了这篇文章,数据清洗你也就完全掌握了
所有做数据分析的前提就是:你得有数据,而且已经经过清洗,整理成需要的格式。 不管你从哪里获取了数据,你都需要认真仔细观察你的...
2019-09-12 00:00:08 -
一个案例告诉你如何使用Kyligence + Spark 进行大数
今天,大数据、数据科学、机器学习分析不再只是热词,已经真实地渗透于生活方方面面。根据福布斯,到 2025 年,全球每年将会有 175 泽字...
2019-09-11 22:11:45 -
Python 中的多进程与线程 每个数据科学家都需要知
线程和进程都是现在计算机领域比较时髦的用语。进程 (Process) 是计算机中已运行程序的实体。进程本身不会运行,是线程的容器。...
2019-09-11 22:11:00 -
数据分析是如何推动游戏行业发展的?
这些多种格式带来了大量多源用户数据:游戏时间、用户交互、退出点和游戏风格等。数据分析师和BI开发人员可以仔细检查这些数据并将其...
2019-09-11 22:05:13 -
快速搭建一超高性能的时序空间大数据处理平台
一般的大数据解决方案都是 Kafaka + Redis + No SQL + Hadoop Spark,但这些套件都是用来处理通用的非结构化数据的,因此在处理结构化的时序空间...
2019-09-11 21:59:08 -
IEEE 2019编程语言排行榜出炉:趋势、开源、职位
IEEE Spectrum 刚刚发布了第六届编程语言排行榜。在新的排名方式下,Python 再次名列第一,而且与第二名的差距正在加大。名列后几位的分别...
2019-09-11 00:14:52 -
官方倒计时:Python2的寿命还剩113天,逾期停止维
作为目前最为流行的编程语言,Python 的出现让计算机编程不再是生僻的专业技能,而是常人都能学习和使用的万金油,它也是人工智能领域...
2019-09-11 00:04:41 -
数据科学中的“帕累托法则”
一个多世纪以前,政治经济学教授维弗雷多·帕累托发表了他对于社会财富分配的研究结果。他所观察到的严重的不平等,例如20%的人拥有...
2019-09-10 23:56:29 -
小数据处理的 7 个技巧
我们经常听说大数据是构建成功的机器学习项目的关键。这里有一个大问题:许多组织没有你需要的这么多数据。...
2019-09-10 23:26:28 -
SPSS Modeler常用函数简介
SPSS Modeler软件包含多种功能丰富的函数,几乎涵盖了我们日常工作的各种需要,主要有信息函数、转换函数、比较函数、逻辑函数、数值函...
2019-09-10 23:26:07 -
腾讯云缘何笃定“云+数据库”
目前,TBase数据库支持x86架构、ARM、POWER、IBM S390等主流的硬件平台。...
2019-09-07 16:59:19