1.4 神经网络中常用的激励函数
深度学习的基础是神经网络。假设在一个单层神经网络(又称感知器)中,输入和输出满足公式:
y=w1x1+w2x2+b
计算关系如图1.14所示。
图1.14 单层神经网络
那么输入与输出满足线性关系。在增加了两个神经元之后,计算公式也类似:
计算关系如图1.15所示。
图1.15 单层神经网络
不过这样的模型只能处理一些简单的线性可分数据,对于线性不可分数据很难有效处理,如图1.16所示。
图1.16 处理数据能力
在神经网络中加入激励函数(非线性)后,神经网络就有可能学习到平滑的曲线来实现对线性不可分数据的处理了,如图1.17所示。
图1.17 加入激励函数后的输出
因此,神经网络中激励函数的作用,通俗来说就是将多个线性输入转换为非线性输出。如果不使用激励函数,神经网络的每层都只能做线性变换,即使多层叠加,也只能做线性变换。通过激励函数引入非线性因素,可使神经网络的表示能力更强。
下面介绍几种神经网络中常用的激励函数。
1.Sigmoid函数
Sigmoid函数的表达式如下:
Sigmoid函数的图像如图1.18所示。
图1.18 Sigmoid函数的图像
Sigmoid函数是神经网络中使用很频繁的激励函数。它能把一个实数压缩至0~1之间,当输入非常大的正数时,结果会接近于1,当输入非常大的负数时,则会得到接近于0的结果。它很好地解释了神经元受到刺激后是否被激活和向后传递的场景(0:几乎没有被激活,1:完全被激活)。不过近几年在深度学习的应用中较少见到它的身影,因为使用Sigmoid函数容易出现梯度消失现象。
【小知识】
使用反向传播算法传播梯度时,随着传播深度的增加,梯度会急剧减小,导致浅层神经元的权重更新非常缓慢,不能有效学习。这样一来,深层模型也就变成了前几层相对固定,只能改变后几层的浅层模型。
当神经网络的层数很多时,如果每一层的激励函数都采用Sigmoid函数,就会产生梯度消失的问题,因为利用反向传播算法更新梯度时,会乘以它的导数,所以梯度会一直减小。
2.tanh函数
tanh函数为双曲正切函数。在数学中,tanh函数是由基本双曲函数:双曲正弦函数、双曲余弦函数推导而来的。其表达式如下:
tanh函数的图像如图1.19所示。
图1.19 tanh函数的图像
y=tanh(x)是一个奇函数,其函数图像为过原点并且穿越一、三象限的严格单调递增的曲线,其图像被限制在两条水平渐近线y=1和y=-1之间。
tanh函数将输入压缩至-1~1之间。该函数与Sigmoid函数类似,也存在梯度消失问题。
3.ReLU函数
ReLU是修正线性单元(Rectified Linear Unit)的简称。其表达式如下:
ReLU(x)=max(0,x)
ReLU函数的图像如图1.20所示。
图1.20 ReLU函数的图像
近年来,ReLU函数在深度学习中使用得很多,该函数可以解决梯度消失问题,因为它的导数等于1或者0。相对于Sigmoid函数和tanh函数,对ReLU函数求梯度非常简单,计算也很简单(因为ReLU函数是线性的,而Sigmoid函数和tanh函数是非线性的),可以很大程度提升随机梯度下降的收敛速度。
ReLU函数的缺点是比较脆弱,随着训练的进行,可能会出现神经元死亡的情况。例如,有一个很大的梯度经过ReLU函数后,结果可能是在此之后任何数据都没有办法再激活这个神经元了。如果发生这种情况,那么流经神经元的梯度从这一点开始将永远是0。也就是说,神经元在训练中不可逆地死亡了。
4.Elu函数
Elu函数的表达式如下:
Elu函数的图像如图1.21所示。
图1.21 Elu函数的图像
Elu函数在正值区间的值为x本身,这样避免了梯度消失问题(在x>0区间内的导数为1),这点与ReLU函数相似。而在负值区间,Elu函数在输入取较小值时具有软饱和特性,提升了对噪声的鲁棒性。
5.Leaky ReLU函数
Leaky ReLu函数的表达式如下:
Leaky ReLU函数能够避免梯度消失问题,当神经元处于非激活状态时,它允许一个非0的梯度存在,这样不会造成梯度消失,收敛速度快。它的优缺点与ReLU函数类似。
6.Maxout函数
Maxout函数的表达式如下:
Maxout函数也是近些年非常流行的激励函数,简单来说,它是ReLU函数和Leaky ReLU函数的一个泛化版本,当w1、b1为0时,Maxout函数便转换为ReLU函数。
因此,Maxout函数继承了ReLU函数的优点,同时没那么容易造成梯度消失。但相比于ReLU函数,Maxout函数因为有2次线性映射运算,所以计算量会翻倍。