642. CIBMTR - Equity in post-HCT Survival Predictions | equity-post-HCT-survival-predictions
感谢 Kaggle 工作人员和比赛组织者举办如此有趣的比赛。同时,感谢大家在比赛期间的分享。在这次比赛中,我从探索不同的表格模型到集成它们,以及关于生存分析数据,学到了很多知识。
由于时间短缺,我没有很好地维护代码,如有任何疑问请联系我。
我的解决方案非常简单但具有泛化性,因为我的交叉验证 (CV)、公共排行榜 (LB) 和私有排行榜 (Private LB) 之间差距不大。
我对不同的模型和目标准备技术进行了多次实验,我的最终解决方案只是这些实验的爬山法 (hill climbing) 集成。
根据比赛中关于折纸策略的讨论,我决定进行 10 折随机折叠,因为按种族分层的 5 折并没有益处。
最终解决方案包含了多样化的集成模型,包括神经网络、XGBoost、CatBoost、LGBM、Lasso 回归、TabFPN、支持向量回归、Tablenet、torch surv、Ridge 回归、TabM、线性回归、Table Transformer。
以下是我的实验及其在爬山法集成中的相应权重。
最佳模型是实验名为 prlnn-exp-01 的模型,它是带有分类掩码和 0.2 偏移的重构 Pairwise Ranking Network。
| 实验 | 描述 | 权重 |
|---|---|---|
| catboost-exp-05 | 使用 Kaplan Meier 目标和分类掩码的 CatBoost | 0.48000000000000087 |
| xgboost-exp-09 | 带有单调约束和 Kaplan Meier 目标的 XGBoost | 0.2700000000000007 |
| lgbm-exp-08 | 使用 BreslowFlemingHarringtonFitter 目标的 LGBM | -0.20999999999999974 |
| catboost-exp-01 | 使用 Kaplan Meier 目标的 CatBoost | 0.10000000000000053 |
| lasso-exp-01 | 使用 Kaplan Meier 目标的 Lasso 回归器 | -0.03999999999999959 |
| nn-exp-04 | 具有分类掩码和 0.1 偏移的神经网络 | 0.12000000000000055 |
| svr-exp-06 | 使用 Nelson Aalen Fitter 目标和分类掩码的支持向量回归 | -0.0499999999999996 |
| ds-exp-01 | CoxPH 模型 | 0.04000000000000048 |
| rf-exp-05 | 使用 Kaplan Meier 目标和分类掩码的随机森林 | -0.05999999999999961 |
| svr-exp-01 | 使用 Kaplan Meier 目标的支持向量回归 | -0.03999999999999959 |
| tf-exp-01 | 使用 Kaplan Meier 目标的 tabpfn | 0.04000000000000048 |
| catboost-exp-03 | 使用 Nelson Aalen 目标的 CatBoost | -0.03999999999999959 |
| catboost-exp-06 | 使用 Nelson Aalen Fitter 目标和分类掩码的 CatBoost | 0.0600000000000005 |
| tn-exp-02 | Tablenet | 0.03000000000000047 |
| xgboost-exp-02 | 使用 Cox Loss 的 XGBoost | -0.0499999999999996 |
| catboost-exp-04 | 使用 CoxPHFitter 目标的 CatBoost | 0.020000000000000462 |
| lgbm-exp-03 | 使用 Nelson Aalen 目标的 LGBM | -0.029999999999999583 |
| ts-exp-01 | Torch Surv 模型 | -0.019999999999999574 |
| xgboost-exp-10 | 0.04000000000000048 | |
| xgboost-exp-06 | 使用 Nelson Aalen Fitter 目标和分类掩码的 XGBoost | -0.029999999999999583 |
| en-exp-02 | 带有分类掩码的 ElastiNet | 0.020000000000000462 |
| ri-exp-06 | 使用 Nelson Aalen 目标和分类掩码的 Ridge 回归 | -0.029999999999999583 |
| tabm-exp-02 | TabM 模型 | 0.0600000000000005 |
| nn-exp-01 | 将 2 个目标转换为 1 个的神经网络 | -0.05999999999999961 |
| lgbm-exp-01 | 使用 Kaplan Meier 目标的 LGBM | -0.0499999999999996 |
| nn-exp-06 | 重构 Pairwise Ranking Network, 感谢 @albansteff | -0.0499999999999996 |
| xgboost-exp-05 | 使用 Kaplan Meier 目标调优参数的 XGBoost | 0.04000000000000048 |
| lir-exp-01 | 使用 Kaplan Meier 目标的线性回归 | -0.019999999999999574 |
| lgbm-exp-04 | 使用 CoxPHFitter 目标的 LGBM | 0.020000000000000462 |
| nn-exp-05 | 应用了一些预处理的神经网络 | 0.010000000000000453 |
| lgbm-exp-06 | 使用 Nelson Aalen 目标的 LGBM | -0.009999999999999565 |
| nn-exp-02 | 具有不同数据预处理的神经网络 | 0.010000000000000453 |
| xgboost-exp-01 | 使用 Kaplan Meier 目标的 XGBoost | 4.440892098500626e-16 |
| tt-exp-01 | Table Transformers Kaplan Meier 目标 | 4.440892098500626e-16 |
有关模型训练和目标准备的更多详细信息,请查看我 GitHub 仓库中的相应 notebook。实验名称是仓库中的 notebook 名称。
| 描述 | CV | 公共 LB | 私有 LB |
|---|---|---|---|
| 上述模型的集成,带有权重和 rankdata | 0.688 | 0.693 | 0.694 |
我要感谢在比赛期间分享的每一个人。我学到了很多,并将在下一场比赛中尝试应用所有的学习成果。此外,特别感谢 @cdeotte 出色的 notebook,感谢他详细的讨论和 starter notebook。