题目标题

FM中如何处理数值型变量?如何处理multi-hot分类变量?

难度:中级

算法 推荐系统
参考解析

FM模型与FFM模型天然为类别型特征设计,如果不处理数值型特征,以年龄为代表,那1岁和99岁的在二阶特征交叉部分得到的结果差距极大。相当于对隐向量做了缩放。
基于以上理由要对数值型特征进行离散化处理。离散化处理的方式有很多可以等距分桶,等频分桶,也可以根据业务知识分桶。

2.1 离散化优点
离散化相当于升维,原来的一维特征变成n维特征,表达能力更强。
离散化可以加强模型鲁棒性,防止了异常值对模型的干扰。
离散特征的增加与减少都非常容易,易于模型的快速迭代。
离散化可以加强模型的稳定性,以年龄为例,年龄长一岁并不会变成不一样的人,离散化可以保证这一点。