题目标题

随机森林如何评估特征重要性。

难度:初级

机器学习
参考解析

衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy:
1) Decrease GINI: 对于回归问题,直接使用 argmax(VarVarLeftVarRight)
作为评判标准,即当前节点训练集的方差 Var 减去左节点的方差 VarLeft 和右
节点的方差 VarRight。
2) Decrease Accuracy:对于一棵树 Tb(x),我们用 OOB 样本可以得到测试误
差 1;然后随机改变 OOB 样本的第 j 列:保持其他列不变,对第 j 列进行随机
的上下置换,得到误差 2。至此,我们可以用误差 1-误差 2 来刻画变量 j 的重
要性。基本思想就是,如果一个变量 j 足够重要,那么改变它会极大的增加测
试误差;反之,如果改变它测试误差没有增大,则说明该变量不是那么的重