2017.07.27回顾 ET和RT比较 高级切片 argsort barplot(yerr=) xgb.plot_importance

本文回顾了ExtraRandomizedTrees(ET)与RandomForest(RF)的区别,重点在于采样策略和结果整合方式。同时,介绍了Python中的高级切片操作,如逆序、步长选择等,并探讨了seaborn库中barplot的yerr参数用于展示误差条的效果。此外,还提及了matplotlib的xlim功能和XGBoost的变量重要性绘制功能。

1、一到办公室写了上一日的小结

2、昨天帮同事拉进白名单,就只能顺带更新了channel rolling variable,运行良好

3、看了下ExtraRandomizedTrees和randomForest的文档,随机森林是有放回的抽样,样本数等于原始样本数,特征数随机子集,结果回归用average,分类用voting(但是sklearn的实现是对probability的average),ExtraRandomizedTrees是用的全样本,默认不抽样,特征是子集,他的极限随机是体现在每个候选特征,是随机生成一个分裂值,然后选出最佳分化特征。GBDT有两个参数可以选择样本子集和特征子集,目的都是增加偏差来降低方差防止过拟合。当时GBDT的子树用的是CART树,分裂准则是GINI,随机森林和ET树我需要再看一下!

4、下午又是开会,反正都没什么收获了

5、python有一些切片方法,我并没有掌握,小结一下

  • a[::-1]逆向list
  • a[:10:2]取前10个元素,每2个取1个
  • a[::5]每5个元素取1个
6、numpy的argsort()其实见过很多次了,但是老是记不住,他是对一个array-like结构的元素下标进行排序,要特别记住的的地方就是对下标进行排序

7、然后新同事的任务中涉及到如何判断一个数是整数,因为有2.0这种形式,实际上还是整数,原来python数字都有一个内建方法,2.0.is_integer()

8、把阿三的风骚EDA是抄完了,最后两步就是用ET树和XGBOOST输出了一个feature_importance,其中xgboost提供了方法直接输出比较方便,ET树需要自己画图设置一些东西

9、sns.barplot或者plt.bar,有一个参数yerr是y error的简称,可以画出y的偏差,另外sns.barplot确实屌,自动配色,简直骚气

10、plt.xlim,xlim是x limit的简写,可以限定X轴的范围,其实没有多大必要,跟默认autoscaling的结果似乎没差

11、xgb内建画变量重要性

fig, ax = plt.subplots(figsize=(12,12))
#xgboost的内建画变量重要性的方法需要传axes对象
xgb.plot_importance(model, max_number_features=50, height=0.8, ax=ax)
plt.show()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值