[深度学习]Kaggle:Gold Mental Solution(Predict Student Exam Scores)

原创已于 2026-06-16 10:40:40 修改 · 327 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#随机森林

于 2026-06-16 00:34:15 首次发布

💎个人主页：星柚程

🚀精选文章：《MATLAB多目标优化》，《Kaggle:CV、Public LB 》、《我的第一次 Kaggle》、《C++构造传参》、《蛇形机械臂的模拟退火优化》

🛠️专栏建设：|深度学习|、|Python量化|、|C++学习|、|数据结构|

🎯流水不争先，争得是涛涛不绝。

引言

这份金牌方案来自一场学生测试分数预测竞赛，作者以第一名的成绩分享了完整的技术路线。以下是对该方案的系统分析。

1. 总体策略

不盲目追求模型数量，而是先打造多个高性能单模型（最佳单模型可排到第7名），然后通过 190个模型的Ridge集成进一步提升。总体流程的核心思想：特征工程 + 多样化模型 + 后处理。

2. 特征工程（FE）

针对不同模型类型设计了两个特征集：

特征集1（适合神经网络）

· 循环特征（来自他人公开notebook）

· 某个公式（原文未详细展开）

· 每个数值特征的类别化副本

· 数字特征（digit features）

· 特定特征组合 + 目标编码（均值/标准差/偏度）

· 数字组合 + 目标编码

特征集2（适合GBDT）

· 相同的公式

· 类别特征的序数映射

· 每个基础特征的类别化副本（包括映射后的数值型类别）

· 数字特征

亮点：针对不同模型特性定制特征，同时保留原始信息与组合信息；目标编码的统计量（均值/标准差/偏度）能捕捉交叉特征的分布信息。

3. 模型选择与性能

训练了8个强基模型，按验证集CV分数排序（越低越好）：

模型 CV 公榜LB 私榜LB

RealMLP 8.58742 8.54280 8.58005

XGBoost 8.59480 8.55235 8.59251

TabM 8.59651 8.55740 8.59279

CatBoost 8.60027 8.56047 8.59537

DeepTables 8.60147 8.55467 8.59020

LightGBM-dart 8.60870 8.56743 8.60437

Kaggle MLP 8.60910 8.56951 8.60767

Keras MLP 8.61511 8.57016 8.60957

从上面表格不难看出，表现最好的单模型是 RealMLP（一种现代MLP变体），优于XGBoost和TabM。所有模型的CV与LB一致性较高，说明验证策略可靠。还尝试了ResNet、FTTransformer、xLearn FFM等，但效果较弱。

4. 集成方法

最终集成了 190个模型，使用 Ridge回归作为元学习器。Ridge集成是一种集成学习中的堆叠（Stacking）方法，具体是指：

用 Ridge回归（一种带L2正则化的线性回归）作为元学习器，来组合多个基模型的预测结果。

1. 训练多个基模型：训练了190个不同的模型（如RealMLP、XGBoost、CatBoost等，包含不同特征集、不同超参数、不同随机种子等）。

2. 生成基模型预测：每个基模型都对训练集（或验证集）产生一列预测值。

3. 构造新训练集：将190个基模型的预测值作为 190个特征，真实标签作为目标变量。

4. 训练Ridge回归：在这个“预测值特征”数据集上训练一个Ridge回归模型，学习每个基模型的最佳权重（同时通过L2正则化防止过拟合）。

5. 最终预测：对新数据，先让190个基模型分别预测，得到190个预测值，再输入训练好的Ridge模型，输出最终的集成结果。