金融风控数据挖掘-Task1

最新推荐文章于 2024-03-10 17:28:39 发布

原创最新推荐文章于 2024-03-10 17:28:39 发布 · 406 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#大数据 #算法

金融风控专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了金融风控领域的数据挖掘，重点关注AUC在分类算法评估中的作用。介绍了分类、混淆矩阵、TPR与FPR、ROC曲线、AUC、Accuracy、Precision、Recall、F1-Score、P-R曲线和KS统计量等关键概念。AUC作为衡量分类器性能的指标，不受样本不平衡影响，能有效评估模型排序能力。同时，文章阐述了Precision和Recall之间的权衡，以及F1-Score作为综合评价指标的重要性。

金融风控数据挖掘-Task1

一、学习知识点概要
二、学习内容
三、学习问题与解答
- 3.1 AUC为什么可以衡量分类的结果
- 3.2 关于Precision与Recall概念的理解
四、学习思考与总结

一、学习知识点概要

本文以完成Datawhale与天池联合发起的金融风控数据竞赛为目标，对机器学习与统计中的AUC进行初步探索，理解赛题的同时对金融风控的背景尝试性地进行浅尝辄止的理解，清楚评分体系。

二、学习内容

1.分类及分类算法

分类是在一群已经知道类别标号的样本中，训练一种分类器，让其能够对某种未知的样本进行分类。分类算法属于一种有监督的学习。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集，通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类对新的数据集进行划分，其主要涉及分类规则的准确性、过拟合、矛盾划分的取舍等。

2.预测指标-AUC

竞赛采用AUC(Area Under Curve)作为评价指标–本文研究重点。

2.1 混淆矩阵

一个表示真正例、假正例、真反例、假反例数的矩阵。
在这里插入图片描述

2.2 四个概念

Positive、Negative、True、False。其中预测类别分两类：Positive与Negative，记为1和0；真实类别分True和False，表示预测正确与错误。

2.3 TPR与FPR

TPR(True Positive Rate):真正例率，表示真实类别为1的样本中预测为1所占比例。
$\frac{TP}{TP + FN}$
FPR(False Positive Rate):假正例率，表示真实类别为0的样本中预测为1所占比例。
$\frac{FP}{FP + TN}$

2.4 ROC与AUC

ROC空间中，FPR为X轴，TPR为Y轴，描绘了TP与FP间的trade-off。ROC曲线越靠近左上方，模型准确性越高。
AUC为ROC曲线下与坐标轴围成的面积。
一般情况下，AUC的最小值为0.5，如图所示，即TPR=FPR，此时该分类器效果极差，通俗地说该分类器的作用相当于人为的抛硬币行为，此分类器无法区分正例与负例。若TPR=FPR=0，则该分类器将所有样本预测为负例。更极端者，若AUC<0.5，此时该分类器总是将正例判断为负例，将负例判断为正例，解决方法为将预测类别取反，则AUC>0.5。
若AUC=1，则FPR=0。即该分类器既没有将正例判断为负例，也没有将负例判断为正例。此为理想模型，不可能实现。

2.5 Accuracy

准确率(Accuracy)为常用的评价指标，表示预测正确的结果占总样本的百分比。但不适合样本不均衡的情况。
$\frac{TP + TN}{TP + TN + FP + FN}$
样本不均衡时，例如样本中正样本占99%，负样本占1%，此时只需将所有样本均预测为正样本，Accuracy便可高达99%，显然，单从该指标衡量模型好坏有很大的水分。由此引出Precision与Recall。

2.6 Precision与Recall

精确率(Precision)又称查准率，含义为TP占TP+FP的百分比。
$\frac{TP}{TP + FP}$
Precision与Accuracy概念完全不同，准确率涵盖整体，既包括正样本，也包括负样本；而精确率只针对正样本结果中的预测准确程度。
召回率(Recall)又称查全率，含义为TP占TP+FN的百分比。
$\frac{TP}{TP + FN}$

2.6 F1-Score

F1-Score取决于Precision与Recall，是这两个值的调和平均值。
$\frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}$

2.7 P-R曲线(Precision-Recall Curve)

描述精确率与召回率变化的曲线
该曲线以Recall为X轴，以Precision为Y轴，取不同的阈值绘制而出，阈值以上为正例，反之为负例。
关于阈值。阈值是随便定义的，事先并不知道阈值是否符合要求，必须遍历0到1之间所有的阈值，让Recall与Precision这两个负相关的指标满足实际需求。

2.8 KS统计量

风控中，KS常用于评估模型区分度，区分度越大，风险排序能力（ranking ability）越强。
ROC将FPR与TPR分别作为横纵轴，而K-S曲线将FPR与TPR都作为纵轴，而横轴选择适当的阈值。
$K S = m a x (T P R - F P R)$
一般情况KS值越大，模型的区分能力越强，但是也不是越大模型效果就越好，如果KS过大，模型可能存在异常，所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况，但此对应不是唯一的，只代表大致趋势。

KS(%)	好坏区分程度
20以下	不建议采用
20-40	较好
41-50	良好
51-60	很强
61-75	非常强
75以上	过于高，疑似存在问题

三、学习问题与解答

3.1 AUC为什么可以衡量分类的结果

AUC是从所有1样本中随机选取一个样本，从所有0样本中随机选取一个样本，然后根据分类器对两个随机样本进行预测，把1样本预测为1的概率为p1，把0样本预测为1的概率为p2，p1>p2的概率就是AUC。故AUC反映的是分类器对样本的排序能力，另外，AUC对样本类别是否均衡并不敏感，这也是不均衡样本通常采用AUC评价分类性能的原因。

3.2 关于Precision与Recall概念的理解

Precision是对模型而言，如模型预测有50个正例，其中有30个正例是对的，那么Precision为60%，此时若测试集有100个正例，则recall为30%。一般来说，模型覆盖的样本越多，recall会很高，而precision会相对较低；反之若模型相对保守，可以理解为所覆盖的样本较少，则precision会很高，recall会相对较低。可以将二者理解为成本与风险的关系，呈负相关，为了寻求一个平衡点，才有了综合考虑Precision与Recall的指标F1-Score–二者的调和平均值。