题目标题

有哪些对数据的基本处理⽅式

难度:初级

机器学习
参考解析

l 异常数据的踢除
具体要看使⽤的模型,对不同模型影响不⼀样
l 数据的缺失值处理
可以缺失值填充,可以删除
l 定类数据的独热编码处理
如果数据特征维度太⾼可以考虑哈希编码
l 连续数据的离散化处理
类别区间更重要
l 连续数据的scaling
使⽤GD优化算法的需要这步
l 连续数据的分布变换
box-cox,log变换之类
l ⽇期型数据处理
提取关键特征
l ⽂本数据的正则化提取