最近做了不少的kaggle机器学习竞赛,总结出了一个经验:做好了feature enginering可以进到前百分之20,如果要进到前百分之10,那么就需要Ensemble method的支持了,所以最近专门深入了解了以下组合的各种方法。通过学习发现组合方法真的是屡试不爽,在竞赛的后期,黔驴技穷,走投无路之时,不妨试试组合方法,会让人豁然开朗,
组合历史提交答案
这是最简单的一种组合方法,只需要把以前提交的答案组合起来再提交一遍就能得到效果,在比赛后期与他人组队的时候,这招也尤为有效,可以直接将自己的结果与他人ensemble,只要保证足够的多样性,可以得到明显的效果。
Voting ensembles
投票组合,故名思议,就是在分类任务中让多个结果来投票,得票数多的类别就是最终答案。Error correcting codes
投票的方法常见于通信系统中的错误编码纠正,例如有以下编码:1110110011101111011111011011 但是由于某种原因变为了:
1010110011101111011111011011 在编码纠正中的常见技术是传递冗余编码,假设对于以上编码,同一码字传送3遍,最终可以通过投票来纠正偶尔错误的编码:
Original signal: 1110110011 Encoded: 10,3 101011001111101100111110110011 Decoding: 1010110011 1110110011 1

本文介绍了在机器学习竞赛中,如何通过Ensemble方法提升模型表现,特别是在特征工程之后,Ensemble成为进入前10%的关键。文章详细探讨了Voting ensembles、Error correcting codes、Stacked Generalization与Blending等策略,包括模型的数量、相关性、加权、平均化等方面,以及在非线性算法中的应用。

494

被折叠的 条评论
为什么被折叠?



