层归一化（Layer Normalization）

在训练深度模型（如 RNN、Transformer）时，由于网络层数较深，随着训练进行，网络各层的输入分布不断变化，这会导致训练变慢，甚至无法收敛。为了解决这个 … 继续阅读层归一化（Layer Normalization）