一、2016年度忙碌的工作与技术积累
1.1 第一版通用信用模型:
201601 开始建模。
梳理大数据特征风控建模的过程如下:
样本:
从LDYS购买到sms中收到逾期3次以上定义为坏,从来没有收到逾期的定义为好。
特征:
细粒度搜索词、大数据用户画像(自然属性、社会属性、兴趣与需求属性)、LBS(家、公司、到访等)、各大类产品线按每1/3/6/12月做的统计衍生特征、细粒度搜索浏览等特征在性别等分类器上提取出的最后一层做稠密特征。
三大特征源,bdg的特征覆盖率86%(53.4w) 特征有9+w维, fsg的特征覆盖率100%(61.4w)特征有1000维,bdl的特征覆盖率50+%(31.6w)特征有2500维。
模型:
基于paddle训练DNN模型。
1.2 第二版通用信用模型:
201604 开始。
优化点:参考zest的样本规整方案,将建模样本在的好定义得更严格:好人必须是观察期之前有信用卡或贷款账单的用户。重新建模。
1.3 第三版通用信用模型beta版 与 升级版:
201607 开始。
样本:
第一次提供了LDYS自定义的违约等级标签D4+的人作违约人群,该样本噪声大模型效果不如之前。
第二次使用9个月表现窗提取连续违约3个月以上的作为违约人群。
样本优化点:
尝试对比几种不同方式定义违约用户:最大逾期信息数>=3,连续逾期月份数>=2, >=3。
特征优化点:
针对大数据画像不断迭代升级变化的问题提取稳定特征保留。
加入LDYS的储蓄卡、信用卡最近1/3/6/12个月的消费记录特征。
使用无监督特征稠密化建模。
模型优化点:
尝试wide 与deep 网络的结构。还缺乏词之间的组合特征编码。
后续优化事项:
特征衍生:词之间的组合特征、连续特征离散化、无监督特征。
DNN模型:引入新的网络结构如resnet,加深网络层数。
1.4 收入模型:
201609 开始。
样本优化点:
收入层次的划分。
目标Y为连续值压缩: log变换等。
1.5 外部合作建模尝试:
201606 开始,后转交给其它同事。
1.6 业务数据分析:
整过一年里间断性穿插业务策略的各种数据分析需求,如模型分cut值分析、模型分的解释、策略的优化分析等等。
1.7 技术点:
针对样本imbalance,对正样本作oversampling。
较系统的补充了gbdt的理论原理,用xgboost的PY进行包装进行参数搜索。
使用卡方、信息增益、树模型的叶子等做有监督筛选特征、使用SVD无监督特征降维等。
特征权重处理调优:归一化、离散化(次数按1,2,10,1000分段,金额按1,2,3倍方差分段)。
对各个典型特征源单独train一隐层的模型预训练。
低维连续值特征用gbdt模型已经能够很好的捕捉到有用信息,可以用其输出接dnn。
应用dnn模型。
二、未来的计划
1,样本层面:
违约天数其实是连续的,可以尝试连续值看看。
2,特征层面:
构造更多无监督特征对百度大数据进行降维。
3,模型层面:
DNN模型引入更深的层次。
跟进业界新提出的DNN网络结构与应用实验,时序DNN。
继续关注DNN模型的可解释性。

本文回顾了2016年在消费信贷建模方面的工作,包括第一版到第三版通用信用模型的建立与优化,收入模型的创建,以及外部合作建模的尝试。在样本选择、特征工程和模型训练等方面进行了深入探讨,并对未来工作提出了连续违约分析、无监督特征降维和DNN模型深化等计划。

1952

被折叠的 条评论
为什么被折叠?



