一文详解神经网络与激活函数的基本原理

本文介绍（Neural Network）及激活函数（Activation Function）的基本原理。

考虑以下分类问题：

图1

然而，在实际案例中我们通常都无法猜到决策边界的“形状”，一是因为样本的特征数量很大导致无法可视化，二是其可能的特征组合很多。

对于上述非线性模型拟合的问题，我们之前介绍了采用核函数的 SVM，本文将介绍更通用的方法——神经网络。

考虑以下矩阵运算：

即：

其中，我们用上标来区分不同变换的参数。

图2

上述连续变换我们称之为 3 层神经网络模型，它有 2 个隐藏层（hidden layer）、1 个输出层（output layer），并且输入 x 有两个特征，注意输入层不计入层数。一般地，如果输入 x 经过 L 次连续变换得到输出 y，那么该变换对应的神经网络模型有 L 层，并且具有 L-1 个隐藏层。

作为个人的建议，你可以把一个层理解为一次变换（或映射），其输出将作为下一层（如果有的话）的输入。事实上，关于层的定义，我不认为我完全清楚，但是我通常会用矩阵运算或函数来看待神经网络的问题，所以如果你理解了原理，这些名词其实不重要。

关于神经网络的同义名词。由于部分人不喜欢神经网络与人脑机制的类比，所以他们更倾向于将神经元称为单元，此外，神经网络也被称为多层感知机（multilayer perceptron）。说实话我也不喜欢，但是为了尽可能减少信息差，本文将采用使用率更高的名词。

现在，我们来分析如何用神经网络模型解决本文开篇的非线性分类问题。

仔细分析可以发现，x 经过多次线性变换的结果仍然是关于 x 的线性变换，显然，为了拟合非线性的模型我们需要加一些“非线性的运算”。具体的操作如下：

可以证明