数据挖掘
-
GraphQL vs REST API 架构,谁更胜一筹?
2015年,Facebook开源GraphQL。此后,它在前端Web中大受欢迎。传统的REST API有何不足?GraphQL优势何在?在本文中,我们将深入探讨GraphQL的设计原...
2020-02-06 21:29:52 -
GitHub 星标 4.6k,Python 可视化库 Altair 入门
数据转化成更直观的图片,对于理解数据背后的真相很有帮助。如果你有这方面的需求,而且还在使用Python,那么强烈推荐你试一试Altair。...
2020-02-06 21:29:36 -
循序渐进,一文详解微服务架构!
要理解微服务,首先要先理解不是微服务的那些。通常跟微服务相对的是单体应用,即将所有功能都打包成在一个独立单元的应用程序。从...
2020-02-06 21:27:25 -
阿里巴巴大规模应用Flink的踩坑经验:如何大幅降
众所周知,Flink 是当前最为广泛使用的计算引擎之一,它使用 checkpoint 机制进行容错处理 ,checkpoint 会将状态快照备份到分布式存储系统,...
2020-02-06 21:27:08 -
1000+倍!超强Python『向量化』数据处理提速攻略
1000倍的速度听起来很夸张。Python并不以速度著称。这是真的吗?当然有可能 ,关键在于你如何操作!如果在数据上使用for循环,则完成所需...
2020-02-06 21:26:56 -
大容量与高性能SSD硬盘的比较
人们需要了解企业级硬盘的最新发展趋势、高性能存储设备的应用方式,以及底层NAND闪存技术进步的影响。固态硬盘(SSD)如今已大部分取代...
2020-02-06 21:26:42 -
Oracle 复制 AWS 的 API:这侵犯了版权吗 ?
今年初,美国最高法院将审理一起重要案子,该案子将根据版权法确定应用编程接口(API)的法律地位。如果最高法院在Oracle对谷歌的Andr...
2020-02-06 21:26:16 -
2020年网络安全行业趋势预测
2019年网络安全形势已然更加复杂,网络攻击手段更为多样,数据泄露、勒索软件、APT攻击等安全事件频发。此外,网络安全市场也在急剧膨...
2020-02-06 21:26:00 -
一次非常有意思的 SQL 优化经历
正常情况下是先join再进行where过滤,但是我们这里的情况,如果先join,将会有70w条数据发送join,因此先执行where过滤是明智方案,现在为了...
2020-02-06 21:25:40 -
什么是用户故事和验收标准?
在软件开发行业中,“需求”一词决定了我们的目标是什么,客户真正的需求是什么,以及是什么可以使公司业务快速增长。无论是作为开...
2020-02-06 21:24:48 -
艰难的旅程,你的数据中台到底能为一线提供多
数据中台很重要,但千万不要依样画葫芦照着外面的架构图去一项项的实施建设,你真要照着阿里的方式做,基本就把自己的资源耗光了,...
2020-02-06 21:24:32 -
基于CAP模型设计企业级真正高可用的分布式锁
在分布式系统中,CAP定律中的三者只能同时满足二者:CP、AP、AC模型。进一步分析,AC模型并不真正的存在,脱离P(分布式环境)谈AC都是耍...
2020-02-06 21:24:16 -
实操:SQL注入国外xx网站
学了SQL注入一段时间了,也在顺利通关过墨者靶场。不过,靶场哪有真实网站好玩?SQL注入就是SQL+注入,不清楚可以百度。谷歌搜索也蛮有...
2020-02-06 21:24:01 -
图解!微服务为什么一定要Zookeeper?
了解微服务的小伙伴都应该知道 Zookeeper,ZooKeeper 是一个分布式的, 开源的分布式应用程序协调服务。现在比较流行的微服务框架 Dubbo、Spr...
2020-02-06 21:23:47 -
两万字深度介绍分布式系统原理,一文入魂
在具体的工程项目中,一个节点往往是一个操作系统上的进程。在本文的模型中,认为节点是一个完整的、不可分的整体,如果某个程序进...
2020-02-06 21:23:27 -
Unix 即将迎来 50 岁
尽管 Unix 的某些早期开发早于其“纪元”的正式开始,但 1970 年 1 月 1 日仍然是 POSIX 时间的零点,也是公认的 Unix 的万物之始。自那一刻算...
2020-02-06 21:23:10 -
初探性能优化--2个月到4小时的性能提升!
一直不知道性能优化都要做些什么,从哪方面思考,直到最近接手了一个公司的小项目,可谓麻雀虽小五脏俱全。让我这个编程小白学到了...
2020-02-06 21:22:42 -
IntelliJ IDEA 2019.3 发布,启动更快,性能更强
距离 IntelliJ IDEA 2019.3 RC 发布不过几天的功夫,目前,IntelliJ IDEA 2019.3 也已正式发布。官方表示,该版本是其旗舰 IDE 的第三次也是最后一个...
2020-02-06 21:21:52 -
Lyft基于Flink的大规模准实时数据分析平台实践
Lyft 的流数据可以大致分为三类,秒级别、分钟级别和不高于 5 分钟级别。分钟级别流数据中,自适应定价系统、欺诈和异常检测系统是最常...
2020-02-06 21:21:25 -
4 种数据库缓存最终一致性的优缺点对比?最终选
缓存是软件开发中一个非常有用的概念,数据库缓存更是在项目中必然会遇到的场景。而缓存一致性的保证,更是在面试中被反复问到,这...
2020-02-06 21:20:46 -
阿里程序员,就这样画出了分布式架构图?
架构就是对系统中的实体以及实体之间的关系所进行的抽象描述,是一系列的决策。系统架构是概念的体现,是对物/信息的功能与形式元素...
2020-02-06 21:19:24 -
2020年9个主要的大数据和数据分析认证
数据和大数据分析是任何成功企业的命脉。实现正确的技术可能具有挑战性,但是建立具有正确技能的正确团队来执行数据计划可能会更加...
2020-02-06 19:26:59 -
大数据分析师与大数据工程师哪个比较好
很多人对于大数据的职位体系不了解,一些对于想入门与大数据的人一直处于迷茫阶段,不知道自己该不该转行学习大数据,不知道自己是...
2020-02-06 19:19:40 -
数据沿袭工具:定位数据错误,优化数据治理策
数据治理的本质是帮助企业创建数据策略,并确保大家能够遵守这些策略。这些策略涉及一系列数据相关流程,包括数据保护、验证和使用...
2020-01-20 13:53:39 -
Apache2019年度报告出炉,HBase、Flink、Beam成最活跃
2019 年对 Apache 软件基金会来说,依然是伟大的一年:它标志着开源领导“Apache 之道”(The Apache Way)的 20 年。...
2020-01-19 00:06:06 -
在数据科学领域,为什么Python比R更好?
我认为,在数据科学领域,Python 比 R 更合适的理由主要有四个。新人数据科学家都面临着一个问题,而这个问题非常重要:我是应该学习...
2020-01-19 00:05:56 -
数据科学初学者面临的5个常见误区
这篇文章中列举了五个数据科学家可能常犯的误区,并对如何防止这些失误的出现给出了一定的建议。...
2020-01-19 00:05:45 -
Uber开源Manifold:机器学习可视化调试工具
在 2019 年 1 月,Uber 推出了 Manifold,这是一种与模型无关的机器学习可视化调试工具,用来识别机器学习模型中的问题。...
2020-01-19 00:05:35 -
爱奇艺大数据实时分析平台的建设与实践
本文将介绍爱奇艺大数据实时分析平台 RAP 的设计思路、技术架构演进以及业务应用实践。...
2020-01-19 00:05:13 -
AutoVis大数据可视化设计框架:让大数据可视化容
本文从大数据应用出发,讨论数据可视化在大数据时代所面临的一系列挑战,并重点介绍AutoVis针对这些挑战所做尝试及其体系架构、关键技...
2020-01-19 00:05:00 -
Python数据可视化:5段代码搞定散点图绘制与使用
散点图(Scatter)又称散点分布图,是以一个变量为横坐标,另一个变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形。...
2020-01-19 00:04:42 -
数据科学初学者面临的5个常见误区
数据如今已经体现出巨大的价值——企业通过数据分析来为包括市场支出、员工决策到产品开发等所有事情提供参考性建议,而这也意味着...
2020-01-13 23:52:59 -
这 5 个 Python 特性,后悔没早知道
作为近 10 年才崛起的编程语言,Python 已被证明是一种非常强大的语言。从交互式映射到区块链,我用 Python 构建过很多应用程序。...
2020-01-11 23:14:06 -
数据湖和SQL并不矛盾
本文要点:随着数据的增长和复杂性的增加,SQL 比以往任何时候都更适合分析和转换数据湖中的数据。...
2020-01-11 23:13:33 -
银行的大数据应用
在笔者看来,大数据的应用效果主要取决于两部分,一是大数据的技术部分,二是对数据质量和价值有重要影响的数据治理部分,二者应当...
2020-01-11 23:06:56