一、模型的样本
好的样本是开发模型的首要环节。预测模型的前提是客户的未来行为要与过去相似,所以在选取样本时要考虑样本的代表性,是否能够有效地代表总体。在建立模型的时候不一定要建立在全量样本上,所有涉及到样本的选取:
随机抽样:
随机抽样是在给定样本规模之后从总体中完全随机抽取,每种类型的样本个体是与总体比例一样的。例如,某银行有100万个信用卡账户,2万个“坏”的账户,若随机抽取2%的样本,则“坏”账户有200个,好账户与坏账户在样本中的比例与在总体中的是一样的,样本加权数均为100。
分类抽样:
分类抽样先要根据模型的需求确定样本的类别,确定针对每个类别的抽样个数,然后在每个类别内进行随机抽样。有点像统计学的分层抽样。所以这样抽到的样本,每个类别的抽样比例是不一样的,加权数越低,抽样比例越高。
分类抽样的好处是可以保证样本中每类对象都可以在样本中占据一样的位置。分类抽样还可以具体细分到下一级的类别。
在选择样本时要注意一下原则:
1. 样本的代表性
样本必须能够代表总体,过去以及未来。例如将学生群体的数据应用到白领群体模型是不合理的,模型的预测效果也会大打折扣。
2. 样本的充分性
样本量该如何确定?样本量太大对数据加工和模型发展的时间较长;太小,可能达不到统计的显著性,即提炼出来的数据关系的代表性不足,置信度太低。一般情况下,银行账户数据中的坏账数据相对好账是少的,所以要保证坏账样本的数量与好账样本数量的稳定性。一般坏账1000-2000,好账3000-5000。
3. 样本的时效性
在建立模型时,会涉及到两个时期:观察期和表现期。样本的观察期一般是越近越好,但还取决于可获得程度和表现期的长短。观察期是提取各预测变量的时期,属于历史时期;表现期用来定义表现变量,属于未来时期。为保证数据的时效性,所以观察期的数据不应该距离表现期太远。
4. 样本的排

信用评分模型开发中,样本的选择至关重要。确保样本代表性、充分性、时效性、排除性和表现推测性,如随机抽样和分类抽样,保证模型预测效果。关注样本量与类别平衡,以及观察期和表现期的时效关系,排除特定群体,全面考虑各类申请人风险。

6697

被折叠的 条评论
为什么被折叠?



