题目标题

数据预处理流程。

难度:初级

机器学习
参考解析
  1. 缺失值,填充缺失值 fillna:
    i. 离散:None,
    ii. 连续:均值。
    iii. 缺失值太多,则直接去除该列
    2.连续值:离散化。有的模型(如决策树)需要离散值
    3.对定量特征二值化。核心在于设定一个阈值,大于阈值的赋值为 1,小于
    等于阈值的赋值为 0。如图像操作
    4.皮尔逊相关系数,去除高度相关的列