[第16名方案] 特征多样性与模型融合

我们要感谢主办方和Kaggle社区提供了如此精彩的比赛。
我要感谢 @shivamcyborg 和 @eventhorizon28 的支持与贡献，我们团队的共同努力帮助我们取得了这一成绩。
特别感谢 @raddar, @roberthatch, @cdeotte, @jiweiliu, @ragnar123 发布的精彩工作，如果没有他们的分析，这场比赛的方向可能会与现在大不相同。

以下是我们方案的简要说明。

特征工程
模型多样性

特征工程

我们在不同的模型训练中使用了不同的特征（均值、标准差和最后值特征是通用的）。我们通过三种方式训练模型：

仅使用 HMA（赫尔移动平均）特征
仅使用差分特征
使用 HMA + 差分特征（仅在 CatBoost 中有效）

对于某些模型（如 NN 和 XGBoost），使用所有差分特征并不是正确的选择，因为它们在训练期间引入了一些泄漏，导致交叉验证（CV）和排行榜（LB）完全不相关。对我们来说，HMA 特征被证明是比差分特征好得多的特征。

模型

我们使用了多种模型，包括 LGBM、XGBoost、CatBoost、两种不同架构的神经网络以及 TABNET。

以下是我们最佳单模型的得分：

模型	交叉验证	Private LB	Public LB	描述	核心特征
LGBM	.7973	0.80687	0.79906	3个不同种子的模型 + 2个公共模型	Diff+Last
XG Boost	.7972	0.80639	0.79718	3个不同种子的模型 + 1个公共模型	HMA+Last
CAT Boost	.7952	0.80468	0.79614	3个不同种子的模型	HMA+diff+Last
NN-1	.7923	0.80190	0.79240	3个不同种子的模型	HMA+Last
NN-2	.7921	0.80186	0.79188	2个不同种子的模型	diff + Last
TABNET	.7933	-	-	最后一天训练的单模型，用于引入多样性	HMA + Last

模型融合

由于我们的 CV 和 LB 相关性非常好，我们使用 Optuna 来选择集成权重，并对提交结果进行了排名集成。然而，由于一些优秀的公共模型没有 OOF（Out-of-Fold）预测结果，我们不得不手动为它们分配权重。

我们未能尝试的事情：

使用 B_29 预测缺失值，然后将其作为特征
带有 HMA 特征的 LGBM，这本该是我们最好的公共模型
仅使用 Private LB 数据进行伪标签

同比赛其他方案

1st solution(update github code)

2nd place solution - team JuneHomes (writeup)

3rd solution--simple is the best

5th Place Solution - Team 💳VISA💳(Summary&zakopuro's part)

9th Place Solution ( XGBoost+LGBM+NN )

[16th place solution] Features Diversity and Ensemble

[第16名方案] 特征多样性与模型融合

特征工程

模型

模型融合

同比赛其他方案