返回列表

3rd Place Solution

642. CIBMTR - Equity in post-HCT Survival Predictions | equity-post-HCT-survival-predictions

开始: 2024-12-04 结束: 2025-03-05 临床决策支持 数据算法赛
第三名解决方案

第三名解决方案

作者: Dmitriy Ukrainskiy
发布日期: 2025-03-06
比赛排名: 第 3 名
首先,我们感谢比赛组织者为我们提供了为 HCT 疗法做出贡献的机会!

我们的解决方案包含以下步骤。

  1. 验证是最重要的一步。我们进行了 4 折交叉验证 (CV)(因为公共测试部分占 25%),并通过 20–100 个随机分割种子评估得分(取决于计算复杂度)。在整个比赛期间,我们在测量平均折得分 (4 x NSeeds) 时拥有极好的 CV–LB 相关性。在我们的实验中,公共“折”大约位于得分直方图的 75 分位数。我们通过这种方式模拟并跟踪了“公共”和“私有”得分,并创建了第二个更具私有导向的提交。它的 LB 得分较低,但模拟(和真实)的私有得分明显更好。

  2. 我们为未删失 (efs = 1) 观测值制作了 [0, 1] 范围内的统一目标,为删失 (efs = 0) 案例制作了 [1.345, 1.355] 范围内的目标。目标是在每个种族组别的训练折和验证折内分别计算的。

  3. 然后我们将任务分为三部分:在属于 efs = 1efs = 0 类的概率加权下,分别在未删失和删失数据内进行回归。

  4. 零值内的回归是组成中最不重要的部分。对于神经网络模型,我们只是将所有 efs = 0 观测值折叠为常数 1.35(经过调整以显示一致性指数方面的最大性能)。

  5. 回归任务的 [0, 1] 目标范围允许我们通过二元交叉熵损失训练模型,与均方误差相比,这更有利。

  6. 因此,预测形式为
    预测组成形式
    我们获得了如下类型的整体散点图
    整体散点图

  7. 我们的模型库包括 CatBoost、LightGBM、XGBoost、带 ODST 的 MLP 和 TabM 模型(回归和分类各有单独的实例)。神经网络在分类方面表现最好,GBM 是回归的冠军。排名模型在比赛中的表现较弱。

  8. 数据存在噪声,经典的降噪方法效果很好。我们在随机初始化种子上平均具有固定超参数/架构的模型,并从训练中消除了具有巨大回归误差的观测值。但在分类情况下,异常值降噪会导致过拟合(ROC AUC 变得更好,但 LogLoss 同时变差)。

  9. 在最后阶段,我们通过凸组合混合回归器,并通过逻辑模型堆叠分类器。通过逻辑回归堆叠在我们通过公共/私有分割的折外模拟看到的测试数据私有部分上显示出 spectacular 性能。所有混合权重都经过同时优化,以使用贝叶斯优化在 20 个 OOF 预测(20 个随机分割种子)上最大化一致性指数

    优化过程

    resulting 集成是

    最终集成结构

    组件的整体性能:

    模型 CV ("公共"估计 — 折 x 种子) 公共排行榜 私有排行榜
    CatBoost 0.68586 0.69424 0.69577
    LightGBM 0.68530 0.69318 0.69572
    XGBoost 0.68616 0.69252 0.69493
    NN 0.68554 0.69540 0.69694
    Blend GBMs 0.68932 0.69608 0.69794
    Blend All + LogReg 0.69139 0.69692 0.69937

总之,这次比赛中最重要的技巧是将任务分为单独的回归和分类部分。例如,通过查看第一次直接建模尝试中的散点图,您可以看到这一技巧。下图显示了使用所有数据进行训练(左)、仅使用 efs = 1 数据进行训练(中)和仅使用 efs = 0 数据进行训练(右)

不同数据子集的训练对比

我的队友在评论区披露了解决方案的细节。

团队成员

Nikita Churkin (特级大师)
Dmitriy Ukrainskiy (大师)
DS_Blonde_Sofa (贡献者)
Evgeny Khinenzon (大师)
同比赛其他方案