题目标题

随机森林如何处理缺失值。

难度:中级

机器学习
参考解析

方法一(na.roughfix)简单粗暴,对于训练集,同一个 class 下的数据,如果是
分类变量缺失,用众数补上,如果是连续型变量缺失,用中位数补。
方法二(rfImpute)这个方法计算量大,至于比方法一好坏?不好判断。先用
na.roughfix 补上缺失值,然后构建森林并计算 proximity matrix,再回头看
缺失值,如果是分类变量,则用没有阵进行加权平均的方法补缺失值。然后迭
代 4-6 次,这个补缺失值的思想和 KNN 有些类似 1 缺失的观测实例的
proximity 中的权重进行投票。如果是连续型变量,则用 proximity 矩 2。