梯度消失（Vanishing Gradient）是在训练深度神经网络时出现的一个常见问题。其表现是当反向传播算法计算梯度时，如果网络中某些层的梯度在传播过程中不断变小，最终导致更新的参数非常小，甚至无法有效更新，就会出现梯度消失的现象。

由于每层的输入会依赖于前一层的输出，而前一层的输出依赖于其权重，随着训练进行，权重的变化也会直接影响输入分布的变化。即使输入数据是固定的，权重的更新依然会导致每一层的输入分布发生较大变化，下一层就必须经过较大的参数调整才能适应这种变化，如果前面层的输出变化非常剧烈，网络需要反复进行参数调整才能适应这些变化，这不仅会导致训练过程变慢，还可能导致收敛性差，甚至训练无法成功。

1. 对激活函数影响

在深度神经网络中，激活函数的饱和区域是指激活函数的输出接近其极限值的区域。例如，对于sigmoid激活函数，当输入值非常大或非常小时，sigmoid的输出会趋近于0或1，此时导数会非常小。对于tanh激活函数，当输入值非常大或非常小时，tanh的输出会趋近于1或-1，导数也会变得非常小。

当每一层的输入数据分布没有经过控制时，数据可能会落入这些激活函数的饱和区域。例如，如果前一层的输出值非常大或非常小，那么通过激活函数后，可能会得到接近0或接近1（sigmoid）或接近-1或1（tanh）的值。这种情况会导致激活函数的导数非常小，从而使得反向传播过程中的梯度非常小，导致梯度消失问题。

梯度消失（Vanishing Gradient）

1. 对激活函数影响

取消回复

文章目录