参考来源:https://www.toutiao.com/a6644771438534328836/
当数据集的特征过多时,容易产生过拟合,可以用随机森林来在训练之后可以产生一个各个特征重要性的数据集,利用这个数据集,确定一个阈值,选出来对模型训练帮助最大的一些特征,筛选出重要变量后可以再训练模型;
数据集是从kaggle网站上下载的lend club数据,通过随机森林筛选出对预测是否逾期的重要性变量:
# 首先导入数据,查看数据集的基本情况:
df = pd.read_csv('loan.csv')
df.head()
df.shape
数据集共887379行,74列

#然后转换目标值,将Charged Off和Late (31-120 days归为坏客户1,其余归为0
df['loan_status'].unique()
df['y'] = df['loan_status'].map(lambda x: int((x == 'Charged Off') | (x == 'Late (31-120 days')))
df.drop('loan_status', axis=1,inplace=True)

&spm=1001.2101.3001.5002&articleId=100635540&d=1&t=3&u=dd4df103e64b4c07994668d0803d6104)
7107

被折叠的 条评论
为什么被折叠?



