机器的深度学习究竟有多“深”？

每次提起深度学习，没有接触过的人会处于一种模糊臆想状态，认为其遥不可及。本文旨在摘下深度学习“高大上”的面纱，用一些简化的模型和通俗的比喻阐述其中的概念。

深度学习由来

1980年福岛邦彦提出的感知机，但由于计算代价过大,，并且“神经网络”这个名词听起来和生物相关，投资者们纷纷拒绝，导致未能进行实际的应用。

经过一段漫长的沉寂与暗中生长，2006年Geoffrey Hinton等人在Science杂志上发表Deep Belief Networks的文章。为了能更好地骗经忽悠信徒，率先使用了“深度”这个词，从此开启了深度神经网络的新时代。

深度学习的本源其实就是神经网络的在机器学习中的应用，它是机器学习的子集，如下图：

我们日常做数学题，是已知公式（规则），拿到题目（数据）去求答案；机器学习正好相反，它是给出数据和答案，需要机器去学习规则。

机器学习，尤其是深度学习，呈现出相对较少的数学理论，并且是以工程为向导的。

这是一门需要上手实践的科学，想法更多地是靠实践来证明，而不是靠理论推导。

机器学习分类：

我们用养孩子的比喻来理解机器学习。

无监督式学习：孩子生出来直接散养，让孩子自己去面对世界建立礼义廉耻的价值观。把小孩和猫咪狗狗放在一块，经过一段时间，他会知道猫和狗是不同类型的东西，但没有人为引导，他不知道“猫”“狗”这样明确的定义。

由于事物具有多面性和复杂性的特点，仅通过有限的特征进行无监督式学习，容易出现与人类期望不符的结果，例如“长头发的人和长头发的狗”，如下图。这种方式是把具有相似性的事物归为一类（聚簇），分离结果只能通过特征的表象，缺点是结果容易跑偏，不符合期望。

（图片来源于网络）

有监督式学习：和无监督式学习相反，孩子出生后，虎爸虎妈手把手教学，兴趣班叠加补习班，任何事情都直接给出正确答案。

经过一系列应试教育，孩子成绩非常优秀（有监督学习的识别率普遍比无监督高许多）。但一旦遇到稍微超纲的问题，立马懵逼，这就是“过拟合”。而且，标签的获取常常需要极大的人工工作量，所以这种方式多用于有明确结果的数据有限的集合。

半监督式学习介于以上两者之间，小时候亲力亲为教导小孩，长大后让他基于已有的基本伦理和社会道德去接触大千世界。

所以，半监督式学习会有小部分已标注的训练集用于初始化学习，而留下一大部分未标注的训练数据让其自我学习。

先回忆下中学的生物知识，神经反射接受信息的过程：感受器（肌肉）->反射弧->中枢神经系统。

我们识别一个人通过模糊到具体的特征，如衣着、头发、脸、眼睛、眉毛等特征，每个特征由一个神经元判断，深度学习就是通过一个个特征组不断学习识别出事物。

深度学习的“深”相对“浅”而言，优点是慢慢深入，前期容易筛选出有用的数据集，结果较准确。

如文章开头所说，深度学习是神经网络的在机器学习中的应用，其技术定义：学习数据表示的多级方法。也可以把深度网络看做多级信息蒸馏操作：信息穿过连续的过滤器，其纯度越来越高（即对任务的帮助越来越大），即权重越高。

权重怎么理解？

假设我们通过衣着判断性别，分为四类：穿裤子的女生、穿裙子的女生、穿裤子的男生、穿裙子的男生。通过日常经验知道，穿裙子较大概率是女生，所以资源不应该平均分配，也就是权重不同。

深度网络可以先提取“衣着”作为一层神经元的筛选，如果恰好筛选出为裙子，那么在筛选出来的集合里，我们已经可以大概率的认为这个样本90%的概率是女性了。

人会根据外界反馈调节自身的状态，深度学习也是。在深度学习中，衡量实际与期望误差的函数称为损失函数，根据损失函数的损失值反过来优化调整权重，以达到局部最优解。

（深度学习的“学习”方式）

常见的深度学习模型：

有监督的神经网络
- 神经网络(Artificial Neural Networks)和深度神经网络(Deep Neural Networks)，ANN&DNN
- 循环神经网络(Recurrent Neural Networks)和递归神经网络(Recursive Neural Networks)，RNN
- 卷积网络(Convolutional Neural Networks)，CNN
无监督的神经网络
- 深度生成模型(Deep Generative Models)，DGM
- 玻尔兹曼机(Boltzmann Machines)和受限玻尔兹曼机(Restricted Boltzmann Machines)，BM&RBM
- 深度信念网络(Deep Belief Neural Networks)，DBNN
- 生成式对抗网络(Generative Adversarial Networks)，GAN