层归一化(LayerNorm)

我们知道 BN 通过对输入 mini batch 样本进行 normalization,能够加快网络收敛。但是,BN 不适合用在 RNN 网络。原因是:BN 是对同一个批次所有样本 … 继续阅读 层归一化(LayerNorm)