返回列表

22nd place solution with code

642. CIBMTR - Equity in post-HCT Survival Predictions | equity-post-HCT-survival-predictions

开始: 2024-12-04 结束: 2025-03-05 临床决策支持 数据算法赛
第 22 名解决方案及代码

第 22 名解决方案及代码

作者: Jaydev Tonde
发布日期: 2025 年 3 月 6 日
比赛排名: 第 22 名

感谢 Kaggle 工作人员和比赛组织者举办如此有趣的比赛。同时,感谢大家在比赛期间的分享。在这次比赛中,我从探索不同的表格模型到集成它们,以及关于生存分析数据,学到了很多知识。

由于时间短缺,我没有很好地维护代码,如有任何疑问请联系我。

我的解决方案非常简单但具有泛化性,因为我的交叉验证 (CV)、公共排行榜 (LB) 和私有排行榜 (Private LB) 之间差距不大。
我对不同的模型和目标准备技术进行了多次实验,我的最终解决方案只是这些实验的爬山法 (hill climbing) 集成。

折纸策略 (Folding Strategy)

根据比赛中关于折纸策略的讨论,我决定进行 10 折随机折叠,因为按种族分层的 5 折并没有益处。

集成模型 (Ensemble)

最终解决方案包含了多样化的集成模型,包括神经网络、XGBoost、CatBoost、LGBM、Lasso 回归、TabFPN、支持向量回归、Tablenet、torch surv、Ridge 回归、TabM、线性回归、Table Transformer。

以下是我的实验及其在爬山法集成中的相应权重。
最佳模型是实验名为 prlnn-exp-01 的模型,它是带有分类掩码和 0.2 偏移的重构 Pairwise Ranking Network。

实验 描述 权重
catboost-exp-05 使用 Kaplan Meier 目标和分类掩码的 CatBoost 0.48000000000000087
xgboost-exp-09 带有单调约束和 Kaplan Meier 目标的 XGBoost 0.2700000000000007
lgbm-exp-08 使用 BreslowFlemingHarringtonFitter 目标的 LGBM -0.20999999999999974
catboost-exp-01 使用 Kaplan Meier 目标的 CatBoost 0.10000000000000053
lasso-exp-01 使用 Kaplan Meier 目标的 Lasso 回归器 -0.03999999999999959
nn-exp-04 具有分类掩码和 0.1 偏移的神经网络 0.12000000000000055
svr-exp-06 使用 Nelson Aalen Fitter 目标和分类掩码的支持向量回归 -0.0499999999999996
ds-exp-01 CoxPH 模型 0.04000000000000048
rf-exp-05 使用 Kaplan Meier 目标和分类掩码的随机森林 -0.05999999999999961
svr-exp-01 使用 Kaplan Meier 目标的支持向量回归 -0.03999999999999959
tf-exp-01 使用 Kaplan Meier 目标的 tabpfn 0.04000000000000048
catboost-exp-03 使用 Nelson Aalen 目标的 CatBoost -0.03999999999999959
catboost-exp-06 使用 Nelson Aalen Fitter 目标和分类掩码的 CatBoost 0.0600000000000005
tn-exp-02 Tablenet 0.03000000000000047
xgboost-exp-02 使用 Cox Loss 的 XGBoost -0.0499999999999996
catboost-exp-04 使用 CoxPHFitter 目标的 CatBoost 0.020000000000000462
lgbm-exp-03 使用 Nelson Aalen 目标的 LGBM -0.029999999999999583
ts-exp-01 Torch Surv 模型 -0.019999999999999574
xgboost-exp-10 0.04000000000000048
xgboost-exp-06 使用 Nelson Aalen Fitter 目标和分类掩码的 XGBoost -0.029999999999999583
en-exp-02 带有分类掩码的 ElastiNet 0.020000000000000462
ri-exp-06 使用 Nelson Aalen 目标和分类掩码的 Ridge 回归 -0.029999999999999583
tabm-exp-02 TabM 模型 0.0600000000000005
nn-exp-01 将 2 个目标转换为 1 个的神经网络 -0.05999999999999961
lgbm-exp-01 使用 Kaplan Meier 目标的 LGBM -0.0499999999999996
nn-exp-06 重构 Pairwise Ranking Network, 感谢 @albansteff -0.0499999999999996
xgboost-exp-05 使用 Kaplan Meier 目标调优参数的 XGBoost 0.04000000000000048
lir-exp-01 使用 Kaplan Meier 目标的线性回归 -0.019999999999999574
lgbm-exp-04 使用 CoxPHFitter 目标的 LGBM 0.020000000000000462
nn-exp-05 应用了一些预处理的神经网络 0.010000000000000453
lgbm-exp-06 使用 Nelson Aalen 目标的 LGBM -0.009999999999999565
nn-exp-02 具有不同数据预处理的神经网络 0.010000000000000453
xgboost-exp-01 使用 Kaplan Meier 目标的 XGBoost 4.440892098500626e-16
tt-exp-01 Table Transformers Kaplan Meier 目标 4.440892098500626e-16

有关模型训练和目标准备的更多详细信息,请查看我 GitHub 仓库中的相应 notebook。实验名称是仓库中的 notebook 名称。

最终提交 CV 和 LB:

描述 CV 公共 LB 私有 LB
上述模型的集成,带有权重和 rankdata 0.688 0.693 0.694

致谢

我要感谢在比赛期间分享的每一个人。我学到了很多,并将在下一场比赛中尝试应用所有的学习成果。此外,特别感谢 @cdeotte 出色的 notebook,感谢他详细的讨论和 starter notebook。

同比赛其他方案