返回列表

11th Place Solution

642. CIBMTR - Equity in post-HCT Survival Predictions | equity-post-HCT-survival-predictions

开始: 2024-12-04 结束: 2025-03-05 临床决策支持 数据算法赛
第 11 名解决方案 - Sercan & Siddhant

第 11 名解决方案

作者: Sercan Yeşilöz & Siddhant Chaudhary
发布时间: 2025 年 3 月 6 日
竞赛排名: 第 11 名

首先,我和我的队友 @siddhant1104 想要感谢组织者举办这次比赛,并祝贺所有获奖者。决定是专注于提高 LB 分数还是 CV 分数非常困难,因为当 CV 分数提高时,我们的 LB 分数大多会变差。我们的解决方案是两种不同方法的加权集成。

Sercan 的流程

  • Notebook: https://www.kaggle.com/code/sercanyesiloz/cibmtr-ensemble-learning?scriptVersionId=226093818
  • 带有成对排名损失(Pairwise Ranking Loss)的神经网络(NN)与 GDBT 流程的集成
  • 种族分组进行样本加权
  • dri_scoreconditioning_intensity 进行有序编码(使用 optuna 调优)
  • 交叉 donor_ageage_at_hct 特征以提取信息
  • 循环年份特征(sin_yearcos_year
  • Kaplan Meier、Nelson Aalen 和 Cox 目标变换
  • 4 个 LightGBM 和 6 个 CatBoost 模型
  • GBDT 交叉验证设置 -> 按种族分组进行分层 10 折
  • 神经网络交叉验证设置 -> 按种族分组age_at_hct==0.44 进行分层 5 折
  • 混合前对预测值进行了缩放

有序编码 (Ordinal Encoding)

dri_score_mapping = {
    "High": 0.6850752146154907,
    "High - TED AML case <missing cytogenetics": 0.18589473149703015,
    "Intermediate": 0.5683465067841215,
    "Intermediate - TED AML case <missing cytogenetics": 0.7708720693082163,
    "Low": 0.9586424711654987,
    "Missing disease status": 0.6831791561653417,
    "N/A - disease not classifiable": 0.7166435651957048,
    "N/A - non-malignant indication": 0.8821201547093761,
    "N/A - pediatric": 0.49866306284678735,
    "TBD cytogenetics": 0.9411056819278409,
    "Unknown": 0.1890854786067684,
    "Very high": 0.5377767827330516
}

conditioning_intensity_mapping = {
    "Unknown": 0.6026915942898587,
    "MAC": 0.02153075067313332,
    "RIC": 0.8995437792670338,
    "NMA": 0.9211477712757186,
    "TBD": 0.7388173559148422,
    "No drugs reported": 0.22412092165882558,
    "N/A, F(pre-TED) not submitted": 0.32745500022610163
}

Siddhant 的流程

  • 带有成对排名损失的神经网络与 ML(GBDT 和线性模型)流程的集成
  • 种族分组进行样本加权
  • 对许多特征进行有序编码
  • 对分类特征进行频率编码
  • 循环年份特征(sin_yearcos_year
  • 使用 Kaplan Meier 和 Nelson Aalen 方法的 3 种自定义目标变换
  • 分类和回归模型
  • 模型使用整个训练集训练,未使用任何交叉验证方法
  • 混合前对预测值进行了缩放
同比赛其他方案