《决策树》(五)过拟合问题

过拟合(Overfitting)是指模型在训练数据上表现得很好,但在未见过的测试数据上表现较差的现象。无论是传统机器学习算法、还是深度学习算法都会出现过拟合问题。

1. 过拟合方法

我们前面构建的分类或者回归决策树都是完全生长的决策树,这种决策树会基于训练数据尽可能的地分裂,直到每一个叶节点都只包含同一类别的样本(对于分类问题)或者是一个纯净的回归值区域(对于回归问题)。

不加以控制生长的决策树,过分适应训练数据,其拟合能力非常强,很容易在训练集上达到 100% 的训练误差。当然,也更容易出现过拟合问题。

所以,决策树提供了很多方法来控制树的复杂度:

  1. 限制树的深度: 通过设置决策树的最大深度,可以防止树变得过于复杂,从而降低过拟合的风险。较浅的树通常泛化能力更强。
  2. 设置最小分割样本数: 规定每个节点在进行分割前必须拥有的最小样本数。这样做可以避免在很少的数据点上进行决策,有助于增加模型的鲁棒性。
  3. 设置最小叶子节点样本数: 确定每个叶节点必须含有的最小样本数。这可以防止叶节点变得过于具体,减少模型对数据噪声的敏感性。
  4. 限制最大叶子节点数: 通过限制决策树可以拥有的叶子节点的最大数量,可以防止树变得过于详细。
  5. 剪枝: 在树完全生成后进行剪枝,通过移除模型中的一些不必要的、贡献较小的节点或者分支来减少模型复杂度。

2. 决策树剪枝

未经允许不得转载:一亩三分地 » 《决策树》(五)过拟合问题
评论 (0)

4 + 3 =