22nd place solution with code

第 22 名解决方案及代码

作者: Jaydev Tonde
发布日期: 2025 年 3 月 6 日
比赛排名: 第 22 名

感谢 Kaggle 工作人员和比赛组织者举办如此有趣的比赛。同时，感谢大家在比赛期间的分享。在这次比赛中，我从探索不同的表格模型到集成它们，以及关于生存分析数据，学到了很多知识。

GitHub 代码仓库 https://github.com/jaytonde/Kaggle-CIBMTR-2024 最终推理 Notebook https://www.kaggle.com/code/jaytonde/hill-climbing-submission

由于时间短缺，我没有很好地维护代码，如有任何疑问请联系我。

我的解决方案非常简单但具有泛化性，因为我的交叉验证 (CV)、公共排行榜 (LB) 和私有排行榜 (Private LB) 之间差距不大。
我对不同的模型和目标准备技术进行了多次实验，我的最终解决方案只是这些实验的爬山法 (hill climbing) 集成。

折纸策略 (Folding Strategy)

根据比赛中关于折纸策略的讨论，我决定进行 10 折随机折叠，因为按种族分层的 5 折并没有益处。

集成模型 (Ensemble)

最终解决方案包含了多样化的集成模型，包括神经网络、XGBoost、CatBoost、LGBM、Lasso 回归、TabFPN、支持向量回归、Tablenet、torch surv、Ridge 回归、TabM、线性回归、Table Transformer。

以下是我的实验及其在爬山法集成中的相应权重。
最佳模型是实验名为 prlnn-exp-01 的模型，它是带有分类掩码和 0.2 偏移的重构 Pairwise Ranking Network。

实验	描述	权重
catboost-exp-05	使用 Kaplan Meier 目标和分类掩码的 CatBoost	0.48000000000000087
xgboost-exp-09	带有单调约束和 Kaplan Meier 目标的 XGBoost	0.2700000000000007
lgbm-exp-08	使用 BreslowFlemingHarringtonFitter 目标的 LGBM	-0.20999999999999974
catboost-exp-01	使用 Kaplan Meier 目标的 CatBoost	0.10000000000000053
lasso-exp-01	使用 Kaplan Meier 目标的 Lasso 回归器	-0.03999999999999959
nn-exp-04	具有分类掩码和 0.1 偏移的神经网络	0.12000000000000055
svr-exp-06	使用 Nelson Aalen Fitter 目标和分类掩码的支持向量回归	-0.0499999999999996
ds-exp-01	CoxPH 模型	0.04000000000000048
rf-exp-05	使用 Kaplan Meier 目标和分类掩码的随机森林	-0.05999999999999961
svr-exp-01	使用 Kaplan Meier 目标的支持向量回归	-0.03999999999999959
tf-exp-01	使用 Kaplan Meier 目标的 tabpfn	0.04000000000000048
catboost-exp-03	使用 Nelson Aalen 目标的 CatBoost	-0.03999999999999959
catboost-exp-06	使用 Nelson Aalen Fitter 目标和分类掩码的 CatBoost	0.0600000000000005
tn-exp-02	Tablenet	0.03000000000000047
xgboost-exp-02	使用 Cox Loss 的 XGBoost	-0.0499999999999996
catboost-exp-04	使用 CoxPHFitter 目标的 CatBoost	0.020000000000000462
lgbm-exp-03	使用 Nelson Aalen 目标的 LGBM	-0.029999999999999583
ts-exp-01	Torch Surv 模型	-0.019999999999999574
xgboost-exp-10		0.04000000000000048
xgboost-exp-06	使用 Nelson Aalen Fitter 目标和分类掩码的 XGBoost	-0.029999999999999583
en-exp-02	带有分类掩码的 ElastiNet	0.020000000000000462
ri-exp-06	使用 Nelson Aalen 目标和分类掩码的 Ridge 回归	-0.029999999999999583
tabm-exp-02	TabM 模型	0.0600000000000005
nn-exp-01	将 2 个目标转换为 1 个的神经网络	-0.05999999999999961
lgbm-exp-01	使用 Kaplan Meier 目标的 LGBM	-0.0499999999999996
nn-exp-06	重构 Pairwise Ranking Network, 感谢 @albansteff	-0.0499999999999996
xgboost-exp-05	使用 Kaplan Meier 目标调优参数的 XGBoost	0.04000000000000048
lir-exp-01	使用 Kaplan Meier 目标的线性回归	-0.019999999999999574
lgbm-exp-04	使用 CoxPHFitter 目标的 LGBM	0.020000000000000462
nn-exp-05	应用了一些预处理的神经网络	0.010000000000000453
lgbm-exp-06	使用 Nelson Aalen 目标的 LGBM	-0.009999999999999565
nn-exp-02	具有不同数据预处理的神经网络	0.010000000000000453
xgboost-exp-01	使用 Kaplan Meier 目标的 XGBoost	4.440892098500626e-16
tt-exp-01	Table Transformers Kaplan Meier 目标	4.440892098500626e-16

有关模型训练和目标准备的更多详细信息，请查看我 GitHub 仓库中的相应 notebook。实验名称是仓库中的 notebook 名称。

最终提交 CV 和 LB：

描述	CV	公共 LB	私有 LB
上述模型的集成，带有权重和 rankdata	0.688	0.693	0.694

致谢

我要感谢在比赛期间分享的每一个人。我学到了很多，并将在下一场比赛中尝试应用所有的学习成果。此外，特别感谢 @cdeotte 出色的 notebook，感谢他详细的讨论和 starter notebook。

第 22 名解决方案及代码

折纸策略 (Folding Strategy)

集成模型 (Ensemble)

最终提交 CV 和 LB：

致谢

同比赛其他方案