LR/GBDT/SVM/FM等若干问

最新推荐文章于 2024-04-25 21:46:52 发布

原创

最新推荐文章于 2024-04-25 21:46:52 发布 · 925 阅读

本文探讨了LR、GBDT、SVM和FM模型在处理不同特征时的适用性。在高维稀疏特征场景下，LR优于GBDT，因为LR可以通过正则化处理过拟合，而GBDT可能忽略一些小而美的特征。LR适合处理离散和连续特征，通常需要标准化或one-hot编码。GBDT适用于非线性问题，但对特征选择有限。FM模型通过向量内积提高模型复杂度，解决特征交叉问题。

在工作确实使用过lr/gbdt，但是特征都是连续型，就达到效果了，其实没有太多的做特征加工，反而更多的在特征提取上(将行为或者异常点抽象成数学表达，这一点也很难，但是面试时候又太依赖于业务背景，很多时候面试官根本没有耐心听你说，所以要尽量去覆盖他们的认知范围，那么最直接的方法就是模型中的共性问题了，普遍问题你都没有思考过，说不过去。。)。来吧，从头开始！

1.lr,gbdt，libfm三种模型分别适合处理什么类型特征？知乎回答链接

当时想搜一下在高维稀疏特征时，lr为什么比gbdt好，搜到了知乎上这个问题，先说一下总体结论：

1、特征太多，gbdt不一定跑的动，可以分桶，但会有损失，2、树的分割往往只考虑了少量特征，大部分特征用不到，少量的特征在多次分裂时被重复用到，剩余的长尾基本用不到，gbdt只是一个贪心的解，每次都考虑增益大的特征来分裂，gbdt可能忽略很多'小而美'的特征；使用lr、svm、ffm等线性模型来处理,可以在线性假设下求得最优解。考虑线性方程式Ax=b。高维稀疏对这个方程影响就是少了几个等式，但是每个'小而美的'特征仍然会被计算权重。同时由此带来的可能的过拟合问题通过正则来解决。就是说多参数的线性模型，既可以学到稠密特征所带来的普遍情况，也可以学到稀疏特征带来的个别情况。

下面拆开了揉碎了来看，这里面有多少盲点。

（1）lr为什么适合处理海量稀疏特征？特征主要分离散特征和连续特征，对于连续特征，需要进行标准化（特征之间量纲不一致，举例年龄特征是0-100，上网时长占比是0-1之间的小数，量级大的特征可能会起决定性作用，量级小的特征也存在0.01大小的差异在权重上反应不出来，所以需要标准化，为了消除特征间单位和尺度差异的影响，对每维特征同等看待。）；对于离散特征，通常使用one-hot编码，有多少特征值就转化为多少个特征，对于类别特征，one-hot是为了消除类别原始标签之前的相对大小导致的误差，比如某个类别标签是1，2，3，在计算距离的时候（1，3）的欧式距离大于（1，2）的欧式距离，使用one-hot更合理一点，001，010，100，但是如果是类别标签之间信息不对等，那么就需要区别对待了(标准基乘上系数来自知乎，尚不懂待研究：分类问题里，损失函数经常定义为预测值和真实值的误差平方和。离散数字编码之后，3被预测称1的损失是比3预测称2更大的（与现实不符）。而onehot则保证了不同的类别距离相同。因此onehot对不同的分类更适