数据挖掘
-
大数据技术| Python程序中不同的重启机制
接下来我们看看Gunicorn的重启机制:信号实质上挂在在Arbiter上,Arbiter相当于master,守护和管理worker的,管理各种信号,事实上它init的时候就...
2018-10-09 22:52:56 -
大数据技术|分布式计算开源框架Hadoop的简单介绍
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的...
2018-10-09 22:52:56 -
HIVE中关于collect_set与explode函数妙用
Hive中的列支持使用三类复杂的集合数据类型,即:array,map及struct,这些类型的名称是保留字,具体用法可参见该篇博文,里面有关于三类...
2018-10-09 22:51:32 -
是什么让深度学习能够深入世界并改变世界?
受人类大脑的生物学习过程的启发,科学家们研究出了人工神经网络(ANN)。“深度学习”指的是由许多层网络层组成的人工神经网络。它是机...
2018-10-09 22:51:32 -
7个你现在就该学习Python的理由
Python 是一门更注重可读性和效率的语言,尤其是相较于 Java,PHP 以及 C++ 这样的语言,它的这两个优势让其在开发者中大受欢迎。...
2018-10-09 22:51:32 -
深入理解HTTPS原理、过程与实践
HTTP是不安全的,我们的页面也被运营商插入过小黄图广告(数据被篡改),对于HTTP来说,再简单不过,只需要设定相应的DNS,做一个中间人攻...
2018-10-09 22:51:32 -
Java线程池的理论与实践
前段时间公司里有个项目需要进行重构,目标是提高吞吐量和可用性,在这个过程中对原有的线程模型和处理逻辑进行了修改,发现有很多...
2018-10-09 22:51:32 -
实用贴|适用于开发者的最佳Chrome扩展工具
毫无疑问,Google Chrome 备受开发者青睐,它提供了一套Chrome DevTools,是 Web开发和性能调试的必备工具,旨在为开发人员提供更轻松的生活。...
2018-10-09 22:51:32 -
如何高效地学习编程语言
学习编程语言是一种技巧:做好了,你会感受到掌握新事物之后的快感(dopamine:多巴胺);做不好,就会接二连三的沮丧,甚至放弃。...
2018-10-09 22:51:32 -
Prepack——JavaScript代码优化工具
官方宣称Prepack是一个优化JavaScript源代码的工具,实际上它是一个JavaScript的部分求值器(Partial Evaluator),可在编译时执行原本在运行时的计算...
2018-10-09 22:51:32 -
如何把时间序列问题转化为监督学习问题?通俗易
机器学习方法,比如深度学习,是可以用来解决时间序列预测问题的。但在使用机器学习之前,时间序列问题需要被转化为监督学习问题。...
2018-10-09 22:51:32 -
Hadoop环境中管理大数据存储八大技巧
在现如今,随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关...
2018-10-09 22:51:32 -
关于分布式系统需要知道的一些事
我们常常会听说,某个互联网应用的服务器端系统多么牛逼,比如QQ、微信、淘宝。那么,一个互联网应用的服务器端系统,到底牛逼在什么...
2018-10-09 22:51:32 -
大数据分析之技术框架整理
默认使用操作系统的内核进行磁盘数据的写入,也就是需要一个winutil的工具,而默认的安装包中不提供,所以需要编译源码或者设置为使用...
2018-10-09 22:51:32 -
大数据所遗忘的基础奠基-Log
在大数据时代,Log是关系数据库对计算机行业的伟大贡献,更是基础技术之一。然而在大家热烈讨论GFS, NoSQL,乃至Paxos, LSM tree等词语的时...
2018-10-09 22:51:32 -
关于Python 代码的实践小结
传递的数据结构如何考虑(是否对调用方有先验知识的要求,比如返回一个 Tuple,则需要用户了解 tuple 中元素的顺序,这样情况是否应该进行...
2018-10-09 22:51:32 -
干货分享| 24页PPT知晓基础机器学习算法
本篇内容主要是面向机器学习初学者,介绍常见的机器学习算法。...
2018-10-09 22:51:32 -
做数据分析时,R 用户如何学习 Python?
本文是帮助 R 用户增强技能和为数据科学进阶而学习 Python (从零开始)。毕竟,R 和 Python 是数据科学从业者必需掌握的两门最重要的编程语言...
2018-10-09 22:51:32 -
技术推荐| 15个数据科学Python库总结
大数据时代,Python 在数据科学行业获得了人们的极大青睐,各种资源也层出不穷。数据科学解决方案公司 ActiveWizards 近日根据他们自己的应...
2018-10-09 22:51:32 -
大规模机器学习的编程技术、计算模型以及Xgbo
机器学习的趋势从传统方法中的简单模型 + 少量数据(人工标注样本),到简单模型 + 海量数据(比如基于逻辑回归的广告点击率预测),再发展...
2018-10-09 22:51:32 -
在日常工作中,切记不要运行的Linux命令
文中列出的命令绝对不可以运行,即使你觉得很好奇也不行,除非你是在虚拟机上运行(出现问题你可以还原),因为它们会实实在在的破坏你...
2018-10-09 22:51:32 -
大数据技术| 互联网金融MySQL优化参数标准
大数据技术应用在金融领域其中之一就是日常的MySQL运维中说起调优,MySQL的配置文件my cnf是不可忽略的。...
2018-10-09 22:51:32 -
JavaScript 中的 10 个机器学习示例
随着时间的推移,机器学习库变得更快也更易于使用,其发展速度丝毫没有放缓的迹象。虽然一直以来 Python 都是机器学习的重要语言,但目...
2018-10-09 22:51:32 -
技术推荐| 10个令人相见恨晚的R语言包
和其他语言(比如Python和Java)相比,R可以更模糊和麻烦。好消息是,有大量的包可以在R基础库上提供简单和熟悉的界面。这篇文章是我喜欢和...
2018-10-09 22:51:32 -
你需要知道的、有用的Python功能和特点
在使用Python多年以后,我偶然发现了一些我们过去不知道的功能和特性。一些可以说是非常有用,但却没有充分利用。考虑到这一点,我编...
2018-10-09 22:51:32 -
程序员需要关注的十个大数据技术
高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。...
2018-10-09 22:51:32 -
强大的PyTorch:10分钟让你了解深度学习领域新流
这篇文章我们就来讲述一下我对PyTorch代码的理解,希望能帮助你阅读PyTorch代码。整个过程是基于贾斯汀·约翰逊的伟大教程。如果你想了解...
2018-10-09 22:49:30 -
使用Python来学习数据科学的完整教程
一直以来,我喜欢敲代码。事实证明,有了Python,敲代码变得更为容易。我花了一周时间来学习Python的基础知识,从那时起,我不仅深入钻...
2018-10-09 22:49:30 -
揭秘 DeepMind 的关系推理网络
每当 DeepMind 发表一篇新文章时,媒体都会有狂热的报道,而你常常会在这些报道中读到一些充满误导性的词句。...
2018-10-09 22:49:30 -
解读:大数据框架Hadoop主要模块
包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件...
2018-10-09 22:49:30 -
主要推荐系统算法总结及Youtube深度学习推荐算法
现如今,许多公司使用大数据来做超级相关推荐,并以此来增加收益。在海量推荐算法中,数据科学家需要根据商业限制以及需求来选择最...
2018-10-09 22:49:30 -
从浅层模型到深度模型:概览机器学习优化算法
学习算法一直以来是机器学习能根据数据学到知识的核心技术。而好的优化算法可以大大提高学习速度,加快算法的收敛速度和效果。...
2018-10-09 22:49:30 -
Spark Streaming应用与实战全攻略(Ⅰ)
本篇为第一部分,包括背景与架构改造、通过代码实现具体细节并运行项目、对Streaming监控的介绍以及解决实际问题、对项目做压测与相关...
2018-10-09 22:49:30 -
Spark Streaming应用与实战全攻略(Ⅱ)
本篇为第二部分,包括Streaming持续优化之HBase以及管理Streaming任务。...
2018-10-09 22:49:30 -
Apache Spark 2.2.0新特性详细介绍
Apache Spark 2 2 0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《Apache Spark 2 2 0正式发布》文章中...
2018-10-09 22:49:30