信息增益会倾向于选择特征值种类较多的特征,而信息增益率则不同。信息增益率的思想就是惩罚那些取值种类多的特征,也可以简单理解为,其更偏向于选择取值种类相对较少的特征。那么,信息增益率是如何惩罚取值种类多的特征呢?其实就是让信息增益除以一个值,该值的大小取决于特征的取值种类。取值种类越多,则该值越大,如下图所示:
这个值叫做分裂信息(Split Information)或者内在信息(Intrinsic Information),其计算公式为:
Si 表示 A 特征中的某一个取值种类的样本数量,S 表示 A 特征总的样本数量。
仍然以下面的数据为例,信息增益为:0.46
特征条件 | 目标值 |
---|---|
α | A |
α | A |
β | B |
α | A |
β | B |
α | B |
分裂信息为:
信息增益率为:0.46 / 0.6365 = 0.7227