【金融风控建模系列】基础篇

本文介绍了风控建模的三个核心要素:大量数据样本的选择与处理、特征分类(基本特征和待入模特征)、以及使用XGBClassifier的模型构建实例。强调数据在模型中的重要性和后续的数据清洗、分析工作。

第一章 风控建模三要素



前言

自从进入智能手机时代,伴随人们生活质量的提升,消费需求也越来越大。消费不再局限于线下,取而代之的线上消费慢慢成为主流…
交易转移到线上,风险就不可避免。最典型的就是信用卡消费,每个人会根据自己的“表现”获得一个额度,人们只能在这个额度下进行消费,借款人需在截止日期之前把钱还上,否则将面临失信问题。这在建模(系列文章中的风控建模均只局限于金融领域)中就是常说的“坏客户”。
那我们为什么要进行风控建模?如果出现坏客户,之后不借给他不就可以了。但请想象一下,现在出现一群没有还款能力的人,他们借了你家银行一大笔钱,最后都还不上…所以,风控建模的目的之一就是不借给这些人钱。
本章我会解释风控模型的三大基本要素。


一、数据

从数据体量看,一个有效果的风控模型至少需要用上千级别的数据量,且随特征数量逐步上升。从数据形式看,均是表格型数据。最常用的是csv格式的数据,相比于xlsx格式,csv占用的空间小的多。
建模用到的数据有一个很明显的特点,就是坏样本会远少于好样本。挑选的时候,需要尽可能保证坏样本总量大于500。

样本示例


其中,event_name:数据所在客群
month:数据所在月份
all_cnt:数据量
catch_cnt:y标签不为空的有效数据量
catch_rate:有效数据量占比
bad_cnt:y为1(坏样本)的数量
bad_rate:y为1(坏样本)的占比,也称坏账率
这是其中一种查看数据基本信息的方式。
观察该数据不难发现,每个月的样本量都超过10000,坏账量都超过1000,故他们都可以单独作为样本。另外,如果相邻月份具有相似坏账率,可以考虑合并。

二、特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

从那开始

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值