评分卡模型分箱整理——0820

最新推荐文章于 2026-03-28 14:59:55 发布

原创

最新推荐文章于 2026-03-28 14:59:55 发布 · 3.6k 阅读

·

1

·

本文探讨了评分卡模型中分箱的原因，包括提高模型稳定性、降低过拟合风险等，并介绍了分箱的基本原则和不同方法，如等距分箱和等频分箱，强调了分箱应保证箱内样本分布均匀和单调性。

在尝试做传统评分卡模型的时候，发现有一个必备的步骤是分箱，但是对于分箱不是很理解。找了一些相关的文章，记录下来，后续看是不是更理解的清楚。

问题一：为什么要分箱？

一般在建立分类模型时，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化，离散化通常采用分箱法。

1、离散特征的增加和减少都很容易，易于模型的迭代优化；

2、稀疏变量内积乘法运算速度快，计算结果方便存储，容易扩展；

3、离散化后的特征对异常数据有很像的鲁棒性：例如年龄大于50特征是1，否则就是0.如果没有离散化，年龄300这个异常值就会多模型有很大干扰；

4、逻辑回归属于广义线性模型，表达能力受限；单变量离散化后未N个，每个变量都有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；

5、离散后可以进行特征交叉，有M+N个变量变为m*n个变量，进一步引入非线性，提升表达能力；

6、离散后特征会更稳定，比如20-30岁之间，是一类，用户不会因为长大了一岁就变成一个完全不一样的人；

7、特征离散后，起到了简化逻辑回归模型的作用，降低了模型过拟合的风险；

8、可以将缺失作为独立的一列带入模型；

9、所有的确实都作为独立的一类带入模型；

问题二：分箱的方式是什么？

针对连续型变量和离散型变量会有不同的分箱方式，基本的原则如下：

1、分的箱数不能太多，太多了就没什么意义了——极端情况下，本身每一种特征取值就是一箱，需要把这些再进行聚类分组；

2、分箱要保证每箱里面同时包含好坏样本——为了后面计算IV和WOE

3、分箱最终要实现的是每一组内差异较小，但是每一组与每一组之间的差异要尽可能大；

4、分箱每组占比不能低于5%，否则就没有意义；

5、分箱之后需要保证单调性；

问题三：分箱的方法

第一种：有监督分箱——卡方分箱；

第二种：无监督分箱

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。