2016 年度消费信贷建模小结

最新推荐文章于 2024-12-10 19:45:00 发布

原创最新推荐文章于 2024-12-10 19:45:00 发布 · 2.8k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#2017 #data mining

ML 同时被 3 个专栏收录

5 篇文章

订阅专栏

5 篇文章

订阅专栏

2 篇文章

订阅专栏

本文回顾了2016年在消费信贷建模方面的工作，包括第一版到第三版通用信用模型的建立与优化，收入模型的创建，以及外部合作建模的尝试。在样本选择、特征工程和模型训练等方面进行了深入探讨，并对未来工作提出了连续违约分析、无监督特征降维和DNN模型深化等计划。

一、2016年度忙碌的工作与技术积累

1.1 第一版通用信用模型：

201601 开始建模。

梳理大数据特征风控建模的过程如下：

样本：

从LDYS购买到sms中收到逾期3次以上定义为坏，从来没有收到逾期的定义为好。

特征：

细粒度搜索词、大数据用户画像（自然属性、社会属性、兴趣与需求属性）、LBS（家、公司、到访等）、各大类产品线按每1/3/6/12月做的统计衍生特征、细粒度搜索浏览等特征在性别等分类器上提取出的最后一层做稠密特征。

三大特征源，bdg的特征覆盖率86%(53.4w) 特征有9+w维， fsg的特征覆盖率100%（61.4w）特征有1000维，bdl的特征覆盖率50+%（31.6w）特征有2500维。

模型：

基于paddle训练DNN模型。

1.2 第二版通用信用模型：

201604 开始。

优化点：参考zest的样本规整方案，将建模样本在的好定义得更严格：好人必须是观察期之前有信用卡或贷款账单的用户。重新建模。

1.3 第三版通用信用模型beta版与升级版：

201607 开始。

样本：

第一次提供了LDYS自定义的违约等级标签D4+的人作违约人群，该样本噪声大模型效果不如之前。

第二次使用9个月表现窗提取连续违约3个月以上的作为违约人群。

样本优化点：

尝试对比几种不同方式定义违约用户：最大逾期信息数>=3，连续逾期月份数>=2, >=3。

特征优化点：

针对大数据画像不断迭代升级变化的问题提取稳定特征保留。

加入LDYS的储蓄卡、信用卡最近1/3/6/12个月的消费记录特征。

使用无监督特征稠密化建模。

模型优化点：

尝试wide 与deep 网络的结构。还缺乏词之间的组合特征编码。

后续优化事项：

特征衍生：词之间的组合特征、连续特征离散化、无监督特征。

DNN模型：引入新的网络结构如resnet，加深网络层数。

1.4 收入模型：

201609 开始。

样本优化点：

收入层次的划分。

目标Y为连续值压缩： log变换等。

1.5 外部合作建模尝试：

201606 开始，后转交给其它同事。

1.6 业务数据分析：

整过一年里间断性穿插业务策略的各种数据分析需求，如模型分cut值分析、模型分的解释、策略的优化分析等等。

1.7 技术点：

针对样本imbalance，对正样本作oversampling。

较系统的补充了gbdt的理论原理，用xgboost的PY进行包装进行参数搜索。

使用卡方、信息增益、树模型的叶子等做有监督筛选特征、使用SVD无监督特征降维等。

特征权重处理调优：归一化、离散化（次数按1,2,10,1000分段，金额按1,2,3倍方差分段）。

对各个典型特征源单独train一隐层的模型预训练。

低维连续值特征用gbdt模型已经能够很好的捕捉到有用信息，可以用其输出接dnn。

应用dnn模型。

二、未来的计划

1，样本层面：

违约天数其实是连续的，可以尝试连续值看看。

2，特征层面：

构造更多无监督特征对百度大数据进行降维。

3，模型层面：

DNN模型引入更深的层次。

跟进业界新提出的DNN网络结构与应用实验，时序DNN。

继续关注DNN模型的可解释性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。