数据挖掘
-
数据驱动的基石——数据库
在当前数据大爆炸的时代,对数据的存储和处理要求也越来越高,也将驱动新一轮的数据库系统的研发。在去国产自主可控的背景下,随着...
2019-06-06 00:01:01 -
实用的大数据分析工具
硬件和软件是良好处理数据的基本和重要组件,就第一个而言,有一些技术,如大规模并行处理(MPP)架构,可以帮助快速处理。...
2019-06-05 23:56:14 -
DataOps 崛起:数据治理需要重建!
绝大多数数据治理计划都没有付诸实施;Gartner 还将84%的公司归到数据治理成熟度较低的分类。尽管几乎所有组织都认识到自己需要数据治理...
2019-06-05 23:54:33 -
蚂蚁金服何昌华:SQLFlow是牛刀初试,实时大数据
开源SQLFlow,反哺业界,同时小小秀出AI肌肉。...
2019-06-05 23:51:38 -
人工智能时代如何高效发掘数据库的价值?NL2S
在本文中,追一科技介绍了 NL2SQL 的价值,及其过去、现在与未来,希望能有更多关于 NL2SQL 的落地场景研究。...
2019-06-05 23:50:25 -
应对数据科学家短缺的6种方法
与其坐等招聘广告的落空,企业更应该进行重新思考、重新培训和重新调整组织,并努力填补数据科学人才的缺口。...
2019-06-05 23:47:05 -
Java开发人员使用哪些大数据工具?
Java开发人员使用哪些大数据工具?...
2019-06-05 23:39:24 -
手工计算神经网络第三期:数据读取与完成训练
小伙伴们大家好呀~~用Numpy搭建神经网络,我们已经来到第三期了。第一期教大家如何用Numpy搭建一个简单的神经网络,完成了前馈部分。第...
2019-06-05 23:35:30 -
用Numpy搭建神经网络第二期:梯度下降法的实现
这一期,为大家带来梯度下降相关的知识点,和上一期一样,依然用Numpy实现梯度下降。在代码开始之前,先来普及一下梯度下降的知识点吧...
2019-06-05 23:35:23 -
TensorFlow什么的都弱爆了,强者只用Numpy搭建神经
此篇文章旨在帮大家梳理神经网络知识点,且此篇文章是第一部分,只是简单搭一个简单的框架。暂时不涉及梯度下降、学习率调参等知识...
2019-06-05 23:35:15 -
分布式时序数据库 QTSDB 的设计与实现
QTSDB 是一个分布式时间序列数据库,用于处理海量数据写入与查询。实现上,是基于开源单机时序数据库 influxdb 1 7 开发的分布式版本,除了...
2019-06-05 23:34:56 -
使用 Redis 流和 Apache Spark 处理实时数据
Apache Spark 的流框架(Structured Streaming)为数据流带来了 SQL 查询功能,让用户可以实时、可扩展地处理数据。...
2019-06-05 23:34:44 -
教你如何处理不平衡数据集(附代码)
本文作者用python代码示例解释了3种处理不平衡数据集的可选方法,包括数据层面上的2种重采样数据集方法和算法层面上的1个集成分类器方...
2019-05-31 00:01:39 -
Kafka 应用实践与生态集成
Apache Kafka 发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。Apache Kafka 社区非常的活跃,通过社区成员...
2019-05-31 00:01:31 -
主导2019年的4个数据分析趋势
企业会考虑利用数据分析和数据科学作为数字化转型的一部分吗?自动化、回归基础的方法,以及数据驱动的文化可能是关键因素。...
2019-05-31 00:01:06 -
Uber如何为大规模Apache Hadoop表实现一致性数据分区
为了可靠且一致地找到数据的位置,本文作者及其同事开发了一个名为全局索引(Global Index)的组件。这个组件负责在 Hadoop 表中簿记(bookkeep...
2019-05-30 00:16:59 -
需要关注的5种预测性存储分析功能
预测性存储分析工具正在成为企业采用的标准设备。人们需要了解它们的功能、工作方式以及提供的好处。...
2019-05-30 00:16:37 -
Databricks MLflow 集成正式发布
Databricks最近正式发布了 MLflow 与 Databrick 笔记本集成,面向其数据工程和高级订阅。该集成将 MLflow 的特性与 Databrick 笔记本和作业的特性结...
2019-05-30 00:11:55 -
揭秘LinkedIn!全球最大的招聘推荐系统如何被机器
LinkedIn是迄今为止市面上极受欢迎的招聘平台之一。来自世界各地的招聘者每天会从LinkedIn上网罗挑选适合他们招人岗位的候选人。...
2019-05-30 00:08:55 -
美团是如何应用Spark处理大数据的?
本文介绍了美团引入Spark的起源,基于Spark所做的一些平台化工作,以及Spark在美团具体应用场景下的实践。总体而言,Spark由于其灵活的编程...
2019-05-30 00:08:42 -
Blink 有何特别之处?菜鸟供应链实时数仓实践
菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时数仓的过程中,面临着诸多挑战,如:如何实现实时变 Key 统计...
2019-05-30 00:08:30 -
企业需要为2020年数据和分析的6个趋势做好准备
大数据和高级分析解决方案是有价值的,现在几乎每个人都认识到这一点。事实上,越来越多的人对这类技术的依赖是不可避免的。大数据...
2019-05-30 00:07:15 -
大数据云迁移的五大要点
数据在云端迁移正在变得令人烦恼。根据McAfee公司的调查,97%的组织使用公共云或私有云服务。...
2019-05-29 00:08:02 -
一次发布有多个发行版,为什么Python发行包会这
虽然经常会使用pip,但你知道它是如何选择不同的发行版么?在这篇文章中,作者介绍了Python中的发行包的一些基本概念,并讨论了为什么发...
2019-05-29 00:05:38 -
暗数据现状堪忧 Splunk给出实现数据驱动的四点建
一家中立的市场调查公司TRUE Global Intelligence在Splunk的指导下调查采访了7个国家的1300多名跨国企业的业务经理和IT领导,发现数据焦虑是全球...
2019-05-26 01:10:23 -
数据分析可以迫使电动滑板车遵守交通法规?
我不禁开始想,为什么今时今日的手机可以提供精确导航了,而业内却无法规范电动滑板车用户遵守交通法规。是否可以强制那些越来越多...
2019-05-26 01:02:50 -
Python 2.7终结于7个月后,这是你需要了解的3.X炫酷
在这篇文章中,作者介绍了 3 0 以来真正 Amazing 的新函数与新方法,也许这些方法我们都不太熟,但它们确实在实践中非常重要。...
2019-05-26 01:01:27 -
数据管理的未来发展趋势
随着云、本地、边缘间的界限逐渐消失,数据管理的未来可以用四个关键词来描述。...
2019-05-26 00:58:45 -
大数据开发之路:hive篇,你看了吗?
大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象”,也就是我们...
2019-05-26 00:54:50 -
关于数据科学的趋势和前景,这里有你想了解的
由于最近几年数据量的爆发式增长,全球数据科学专家的数量也在增加。所以,问题来了,如果数据科学专家的数量逐年增加,那么专家们...
2019-05-26 00:53:54 -
数据结构和算法必知必会的50个代码实现
今天在GitHub上发现了个非常不错的项目,目前star 4700+,项目主要讲数据结构和算法,有多种语言 50个代码实现。...
2019-05-26 00:53:35 -
大数据分析&人工智能:技术内容价值观的辨析
随着技术的不断发展,技术的种类越来越多,人们不可能掌握全部的技术,但是技术对于人们的选择有了太多太多,这时候在选择什么技术...
2019-05-26 00:48:33 -
选择 Pulsar 而不是 Kafka 的 7 大理由
对于开发云原生分布式应用程序的开发人员来说,他们应该把更多的精力放在应用程序和微服务上,而不是把时间浪费在处理复杂的消息基...
2019-05-26 00:47:49 -
MongoDB 再遭攻击,12000 个数据库被删除
据外媒报道,在过去的三周时间内,超过 12000 个不安全的 MongoDB 数据库受到攻击,并被删除,攻击者只留下了一条信息:想要恢复数据,数...
2019-05-26 00:46:17 -
10个数据科学家常犯的编程错误(附解决方案)
我是一名资深数据科学家,在Stackoverflow的python编程方面排名前1%,并与许多(初级)数据科学家共事。以下是我经常看到的10大常见错误,本文...
2019-05-26 00:45:54