构建决策树时,需要根据训练数据计算所有特征的最佳分裂点,来实现分类决策树构建。在 scikit-learn 的分类决策树实现中,主要用到了两种方法:
- 信息增益
- 基尼指数
接下来,我们就要去学习和掌握这两种分裂增益原理和计算方法,以及基于这两种方法构建决策树。
注意:决策树可以是多叉树、也可以是二叉树,在实际应用时,我们一般都是构建的二叉树结构。
1. 信息增益
信息增益是基于熵的分裂增益计算方法。在这一部分,我们将学习熵的概念,以及如何利用这些概念来构建分类决策树。
2. 基尼指数
基尼指数是分类决策树中默认使用的分裂增益计算方法,它衡量了决策树分裂后的不纯度下降程度。相较于信息增益,基尼指数的计算更为简洁。