数据竞赛中有效验证策略的设计与应用
1. 避免依赖公开排行榜
在Kaggle竞赛中,很多人在建模和提交结果时,往往会直接相信排行榜反馈的结果,认为竞赛中最重要的就是排名。但实际上,直到竞赛结束才能看到真正的排行榜(私有排行榜),而公开排行榜常常具有误导性,依赖它是常见的错误。
在数据竞赛里,验证至关重要。需要了解以下几个方面:
- 过拟合的概念以及公开排行榜可能产生的误导。
- 可怕的排名变动(shake - ups)。
- 不同类型的验证策略。
- 对抗验证。
- 如何发现和利用数据泄露。
- 选择最终提交结果时应采取的策略。
在建模过程中监测性能并识别过拟合何时发生,不仅是数据科学竞赛中的关键能力,也是所有数据科学项目的重要技能。在Kaggle竞赛中学会正确验证模型,这一技能在专业领域也非常有用。
2. 深入剖析排行榜机制
Kaggle在每次竞赛中会将测试集分为公开部分和私有部分。公开部分会显示在实时排行榜上,私有部分用于计算最终分数。测试集的划分通常是随机的(时间序列竞赛按时间划分),且整个测试集发布时不区分公私。
模型提交的结果会覆盖整个测试集,但只有公开部分会立即计分,私有部分的计分要等到竞赛结束。基于此,有三个要点需要考虑:
- 为保证竞赛顺利进行,训练数据和测试数据应来自同一分布,测试数据的私有和公开部分在分布上也应相似。
- 即使训练数据和测试数据表面上来自同一分布,但如果任一数据集的样本不足,可能难以使训练数据与公开、私有测试数据的结果一致。
- 公开测试数据应作为数据科学项目中的保留测试集,仅用于最终验证。因
超级会员免费看
订阅专栏 解锁全文

111

被折叠的 条评论
为什么被折叠?



