信息增益率(Gain Ratio)

信息增益会倾向于选择特征值种类较多的特征,而信息增益率则不同。信息增益率的思想就是惩罚那些取值种类多的特征,也可以简单理解为,其更偏向于选择取值种类相对较少的特征。那么,信息增益率是如何惩罚取值种类多的特征呢?其实就是让信息增益除以一个值,该值的大小取决于特征的取值种类。取值种类越多,则该值越大,如下图所示:

这个值叫做分裂信息(Split Information)或者内在信息(Intrinsic Information),其计算公式为:

Si 表示 A 特征中的某一个取值种类的样本数量,S 表示 A 特征总的样本数量。

仍然以下面的数据为例,信息增益为:0.46

特征条件目标值
αA
αA
βB
αA
βB
αB

分裂信息为:

信息增益率为:0.46 / 0.6365 = 0.7227

未经允许不得转载:一亩三分地 » 信息增益率(Gain Ratio)
评论 (0)

1 + 6 =