3rd Place Solution

第三名解决方案

作者: Dmitriy Ukrainskiy
发布日期: 2025-03-06
比赛排名: 第 3 名

完整代码 点击查看完整的解决方案代码 最佳“单人”模型 (金牌前 11 名私有排行榜 — 0.69694, 从头开始完整训练) 点击查看单独神经网络模型的实现

首先，我们感谢比赛组织者为我们提供了为 HCT 疗法做出贡献的机会！

我们的解决方案包含以下步骤。

验证是最重要的一步。我们进行了 4 折交叉验证 (CV)（因为公共测试部分占 25%），并通过 20–100 个随机分割种子评估得分（取决于计算复杂度）。在整个比赛期间，我们在测量平均折得分 (4 x NSeeds) 时拥有极好的 CV–LB 相关性。在我们的实验中，公共“折”大约位于得分直方图的 75 分位数。我们通过这种方式模拟并跟踪了“公共”和“私有”得分，并创建了第二个更具私有导向的提交。它的 LB 得分较低，但模拟（和真实）的私有得分明显更好。
我们为未删失 (efs = 1) 观测值制作了 [0, 1] 范围内的统一目标，为删失 (efs = 0) 案例制作了 [1.345, 1.355] 范围内的目标。目标是在每个种族组别的训练折和验证折内分别计算的。
然后我们将任务分为三部分：在属于 efs = 1 和 efs = 0 类的概率加权下，分别在未删失和删失数据内进行回归。
零值内的回归是组成中最不重要的部分。对于神经网络模型，我们只是将所有 efs = 0 观测值折叠为常数 1.35（经过调整以显示一致性指数方面的最大性能）。
回归任务的 [0, 1] 目标范围允许我们通过二元交叉熵损失训练模型，与均方误差相比，这更有利。
因此，预测形式为

我们获得了如下类型的整体散点图
我们的模型库包括 CatBoost、LightGBM、XGBoost、带 ODST 的 MLP 和 TabM 模型（回归和分类各有单独的实例）。神经网络在分类方面表现最好，GBM 是回归的冠军。排名模型在比赛中的表现较弱。
数据存在噪声，经典的降噪方法效果很好。我们在随机初始化种子上平均具有固定超参数/架构的模型，并从训练中消除了具有巨大回归误差的观测值。但在分类情况下，异常值降噪会导致过拟合（ROC AUC 变得更好，但 LogLoss 同时变差）。

在最后阶段，我们通过凸组合混合回归器，并通过逻辑模型堆叠分类器。通过逻辑回归堆叠在我们通过公共/私有分割的折外模拟看到的测试数据私有部分上显示出 spectacular 性能。所有混合权重都经过同时优化，以使用贝叶斯优化在 20 个 OOF 预测（20 个随机分割种子）上最大化一致性指数

优化过程

resulting 集成是

最终集成结构

组件的整体性能：

模型	CV ("公共"估计 — 折 x 种子)	公共排行榜	私有排行榜
CatBoost	0.68586	0.69424	0.69577
LightGBM	0.68530	0.69318	0.69572
XGBoost	0.68616	0.69252	0.69493
NN	0.68554	0.69540	0.69694
Blend GBMs	0.68932	0.69608	0.69794
Blend All + LogReg	0.69139	0.69692	0.69937

总之，这次比赛中最重要的技巧是将任务分为单独的回归和分类部分。例如，通过查看第一次直接建模尝试中的散点图，您可以看到这一技巧。下图显示了使用所有数据进行训练（左）、仅使用 efs = 1 数据进行训练（中）和仅使用 efs = 0 数据进行训练（右）

我的队友在评论区披露了解决方案的细节。

团队成员

Nikita Churkin (特级大师)

Dmitriy Ukrainskiy (大师)

DS_Blonde_Sofa (贡献者)

Evgeny Khinenzon (大师)

第三名解决方案

首先，我们感谢比赛组织者为我们提供了为 HCT 疗法做出贡献的机会！

团队成员

同比赛其他方案