题目标题

试析Min-Max与Z-Score这两种数据缩放各自特点,和为什么树形结构不需要做缩放?

难度:高级

机器学习
参考解析


两者相似点:
两种处理的本质都是对数据做线性变换,将数据压缩到[0,1]区间或者最大标准差之间的范围,消除特征量纲对模型训练的影响

两者不同点:

  1. 归一化的缩放仅跟最大和最小值相关;而标准化的缩放和每个点都有关系,通过均值和方差体现出来
  2. 归一化的输出范围在0-1之间;而标准化的输出范围是与数据的标准差相关

为什么树型结构不需要做缩放?
因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。按照特征值对数据进行排序,排序的顺序不变,那么分裂点就不会不同。
对于线性模型,特征值差别很大时,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。而对于归一化的数据,损失等高线是圆形,更少的迭代次数即可到达最优点。树模型不使用梯度下降,因为构建树模型相当于寻找最优分裂点,因此树模型是阶跃的,在阶跃点处不可导。