干货|机器学习超全总结!

本篇文章非常全面地给大家总结了有关机器学习的相关知识，满满的干货，请查收！

时光飞逝，学习机器学习已四年有余，深感机器学习之博大精深，可能不断学习数十年也无法穷尽。但从另一方面考虑，我也学了很多，也有一些自己的感悟。

本文谨代表我个人的观点和感悟，希望对大家(尤其是初学者)有所帮助，欢迎大家一起讨论与学习~

本文的目录如下：

干货|机器学习超全总结!

一、综述

干货|机器学习超全总结!

干货|机器学习超全总结!

根据训练数据是否有标记，机器学习任务大致分为两大类：监督学习和非监督学习，监督学习主要包括分类和回归等，非监督学习主要包括聚类和频繁项集挖掘等。

监督学习的过程如下：

干货|机器学习超全总结!

无监督学习的过程如下：

干货|机器学习超全总结!

监督学习算法VS无监督学习算法：

干货|机器学习超全总结!

输入空间：在监督学习中，将输入所有可能取值的集合称为输入空间。
特征空间：每个具体输入是一实例，通常用特征向量表示，所有特征向量存在的空间为特征空间。有时输入空间和特征空间为相同的空间，有时为不同的空间，需要将实例从输入空间映射到输出空间。
输出空间：在监督学习中，将输出所有可能取值的集合称为输出空间。
假设空间：监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。由输入空间到输出空间的映射的集合，称为假设空间。举个简单的例子，在一元线性回归中，假设空间即所有的直线y=ax+b组成的集合，我们的目标就是找到一条y=a’x+b’，使得损失最小。

生成模型：生成模型由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型。之所以被称为生成方法，是因为模型表示了给定输入X产生输出Y的关系。典型的模型有朴素贝叶斯(NB)和隐马尔可夫模型(HMM)等。
判别模型：判别模型由数据直接学习决策函数f(X)，或条件概率分布P(Y|X)。判别方法关心的是对给定的输入X，应预测什么样的输出Y。

典型的判别模型包括k近邻算法(KNN)、决策树(DT)、逻辑回归(LR)、支持向量机(SVM)等。

干货|机器学习超全总结!

特征选择对机器学习至关重要，个人认为在大部分机器学习任务中特征就决定了效果的上限，模型的选择与组合只是无限逼近于这个上限。

特征选择的主要作用包括：减少特征数量会防止维度灾难，减少训练时间；增强模型泛化能力，减少过拟合；增强对特征和特征值的理解。

常见的特征选择方法如下：

去除取值变化小的特征：如果绝大部分实例的某个特征取值一样，那这个特征起到的作用可能就比较有限，极端情况下如果所有实例的某特征取值都一样，那该特征基本就不起作用。
单变量特征选择法：能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。常见方法包括卡法检验、互信息、皮尔森相关系数、距离相关系数、基于学习模型的特征排序(Model based ranking)等。

正则化：L1正则化、L2正则化。

随机森林特征选择：这类方法主要包括平均不纯度减少(mean decrease impurity)和平均精确率减少(Mean decrease accuracy)两种方法。

顶层特征选择法：这类方法主要包括稳定性选择(Stability selection)和递归特征消除(Recursive feature elimination)两种方法。