题目标题

标准化与归一化的区别?

难度:初级

机器学习
参考解析

简单来说,标准化是依照特征矩阵的列处理数据,其通过求 z-score 的方法,
将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其
目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,
也就是说都转化为“单位向量”。规则为 L2 的归一化公式如下:
特征向量的缺失值处理:
1.缺失值较多.直接将该特征舍弃掉,否则可能反倒会带入较大的 noise,对结
果造成不良影响。
2.缺失值较少,其余的特征缺失值都在 10%以内,我们可以采取很多的方式来处
理:
1) 把 NaN 直接作为一个特征,假设用 0 表示;
2) 用均值填充;
3) 用随机森林等算法预测填充