LR/GBDT/SVM/FM等若干问

本文探讨了LR、GBDT、SVM和FM模型在处理不同特征时的适用性。在高维稀疏特征场景下,LR优于GBDT,因为LR可以通过正则化处理过拟合,而GBDT可能忽略一些小而美的特征。LR适合处理离散和连续特征,通常需要标准化或one-hot编码。GBDT适用于非线性问题,但对特征选择有限。FM模型通过向量内积提高模型复杂度,解决特征交叉问题。

在工作确实使用过lr/gbdt,但是特征都是连续型,就达到效果了,其实没有太多的做特征加工,反而更多的在特征提取上(将行为或者异常点抽象成数学表达,这一点也很难,但是面试时候又太依赖于业务背景,很多时候面试官根本没有耐心听你说,所以要尽量去覆盖他们的认知范围,那么最直接的方法就是模型中的共性问题了,普遍问题你都没有思考过,说不过去。。)。来吧,从头开始!

1.lr,gbdt,libfm三种模型分别适合处理什么类型特征?知乎回答链接 

 当时想搜一下在高维稀疏特征时,lr为什么比gbdt好,搜到了知乎上这个问题,先说一下总体结论:

1、特征太多,gbdt不一定跑的动,可以分桶,但会有损失,2、树的分割往往只考虑了少量特征,大部分特征用不到,少量的特征在多次分裂时被重复用到,剩余的长尾基本用不到,gbdt只是一个贪心的解,每次都考虑增益大的特征来分裂,gbdt可能忽略很多'小而美'的特征;使用lr、svm、ffm等线性模型来处理,可以在线性假设下求得最优解。考虑线性方程式Ax=b。高维稀疏对这个方程影响就是少了几个等式,但是每个'小而美的'特征仍然会被计算权重。同时由此带来的可能的过拟合问题通过正则来解决。就是说多参数的线性模型,既可以学到稠密特征所带来的普遍情况,也可以学到稀疏特征带来的个别情况。

下面拆开了揉碎了来看,这里面有多少盲点。

 (1)lr为什么适合处理海量稀疏特征? 特征主要分离散特征和连续特征,对于连续特征,需要进行标准化(特征之间量纲不一致,举例年龄特征是0-100,上网时长占比是0-1之间的小数,量级大的特征可能会起决定性作用,量级小的特征也存在0.01大小的差异在权重上反应不出来,所以需要标准化,为了消除特征间单位和尺度差异的影响,对每维特征同等看待。) ;对于离散特征,通常使用one-hot编码,有多少特征值就转化为多少个特征,对于类别特征,one-hot是为了消除类别原始标签之前的相对大小导致的误差,比如某个类别标签是1,2,3,在计算距离的时候(1,3)的欧式距离大于(1,2)的欧式距离,使用one-hot更合理一点,001,010,100,但是如果是类别标签之间信息不对等,那么就需要区别对待了(标准基乘上系数来自知乎,尚不懂待研究:分类问题里,损失函数经常定义为预测值和真实值的误差平方和。离散数字编码之后,3被预测称1的损失是比3预测称2更大的(与现实不符)。而onehot则保证了不同的类别距离相同。因此onehot对不同的分类更适

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值