L1 和 L2 正则化的区别

在数据集较为复杂的场景下，数据集中容易出现一些异常数据、特征多重共线性问题，使得参数更新出现剧烈的震荡，难以快速收敛到最优解。

通过 L1 和 L2 正则化，一定程度上可以使得参数的更新更加平滑，减少异常数据、共线性问题对参数更新的影响，更有助于提升模型的泛化能力。

L1 正则化的特点：梯度下降迭代过程中，每次通过额外减少固定的值，来使得参数更新稳定。其会让个别的特征的权重变为0，可用于重要特征的筛选。

L2 正则化的特点：梯度下降迭代过程中，每次通过按照一定比例减少权重，使得权重参数下降，但是一般不会使得权重参数为0。

L1 和 L2 正则化都会使得权重趋向 0 的方向趋近。

L2 正则化使得模型更加偏重于使用全部特征进行预测，而 L1 更偏向于使用少数特征进行预测。

正则化参数可用于控制权重参数衰减速度。

在损失函数中，通过添加正则化项，使得我们的损失函数能够考虑到结构化风险。