《决策树》（五）过拟合问题

老孟2024-03-27人工智能742

过拟合（Overfitting）是指模型在训练数据上表现得很好，但在未见过的测试数据上表现较差的现象。无论是传统机器学习算法、还是深度学习算法都会出现过拟合问题。

1. 过拟合方法

我们前面构建的分类或者回归决策树都是完全生长的决策树，这种决策树会基于训练数据尽可能的地分裂，直到每一个叶节点都只包含同一类别的样本（对于分类问题）或者是一个纯净的回归值区域（对于回归问题）。

不加以控制生长的决策树，过分适应训练数据，其拟合能力非常强，很容易在训练集上达到 100% 的训练误差。当然，也更容易出现过拟合问题。

所以，决策树提供了很多方法来控制树的复杂度：

限制树的深度：通过设置决策树的最大深度，可以防止树变得过于复杂，从而降低过拟合的风险。较浅的树通常泛化能力更强。
设置最小分割样本数：规定每个节点在进行分割前必须拥有的最小样本数。这样做可以避免在很少的数据点上进行决策，有助于增加模型的鲁棒性。
设置最小叶子节点样本数：确定每个叶节点必须含有的最小样本数。这可以防止叶节点变得过于具体，减少模型对数据噪声的敏感性。
限制最大叶子节点数：通过限制决策树可以拥有的叶子节点的最大数量，可以防止树变得过于详细。
剪枝：在树完全生成后进行剪枝，通过移除模型中的一些不必要的、贡献较小的节点或者分支来减少模型复杂度。

2. 决策树剪枝

代价复杂度剪枝（Cost-Complexity Pruning）

未经允许不得转载：一亩三分地 » 《决策树》（五）过拟合问题

4 赞

 评论 (0)

取消回复