在数据集较为复杂的场景下,数据集中容易出现一些异常数据、特征多重共线性问题,使得参数更新出现剧烈的震荡,难以快速收敛到最优解。
通过 L1 和 L2 正则化,一定程度上可以使得参数的更新更加平滑,减少异常数据、共线性问题对参数更新的影响,更有助于提升模型的泛化能力。
L1 正则化的特点:梯度下降迭代过程中,每次通过额外减少固定的值,来使得参数更新稳定。其会让个别的特征的权重变为0,可用于重要特征的筛选。
L2 正则化的特点:梯度下降迭代过程中,每次通过按照一定比例减少权重,使得权重参数下降,但是一般不会使得权重参数为0。
L1 和 L2 正则化都会使得权重趋向 0 的方向趋近。
L2 正则化使得模型更加偏重于使用全部特征进行预测,而 L1 更偏向于使用少数特征进行预测。
正则化参数可用于控制权重参数衰减速度。
在损失函数中,通过添加正则化项,使得我们的损失函数能够考虑到结构化风险。