返回列表

32nd Place Solution

642. CIBMTR - Equity in post-HCT Survival Predictions | equity-post-HCT-survival-predictions

开始: 2024-12-04 结束: 2025-03-05 临床决策支持 数据算法赛
第 32 名解决方案

第 32 名解决方案

作者: KW
发布日期: 2025 年 3 月 8 日
竞赛排名: 第 32 名
队友: @cody11null, stefanoclss

首先,我想感谢组织者和 Kaggle 举办了如此精彩的比赛。我还要特别感谢我的队友 @cody11nullstefanoclss

概述

为了提高目标变换的准确性,我们首先将每个 race_group 的生存时间变换为遵循对数逻辑分布,然后使用两种类型的目标变换,对多个 GBDT+TabM 和 nn_pairwise 模型的集成进行最终模型预测。

Solution Overview

目标变换

假设具有长生存时间 (efs=0) 的 efs_time 和具有短生存时间 (efs=1) 的 efs_time 遵循不同的统计分布,我们发现 efs=1 数据按 race_group 遵循独特的对数逻辑分布。然后提取遵循该对数逻辑分布的 efs=0 数据,并通过该分布的条件期望校正这些数据。使用这些数据,进行了两种目标变换(Kaplan-Meier 和 QuantileTransform)。

模型训练

我们进行了一些特征工程并构建了以下模型:

  • 特征工程:独热编码 (One-hot encoding)、标签编码 (Label encoding) 和自定义特征
  • 模型:19 个 GBDT + 7 个 nn 模型,如下所示;基于 KaplanMeier 目标的 GBDT (CAT, LGB, XGB) 和 TabM,具有单调性的 GBDT (CAT, LGB, XGB),事件掩码 PRL-NN,Yunbase 模型等

集成模型

每个单一模型被分为几个块,并在第一层对每个块使用每个模型的 oof 进行 stacking 集成。通过重复试验增加每个块的多样性,构建了一个最大化 CV 和 LB 的模型。在第二层,构建了一个线性模型,其中第一层集成被加权以最大化 CV 的 c-index。最后,进行后处理以平衡每个 race_group 的分数并最大化 c-index。

提交结果

以下是我们的最终提交结果。
最佳成绩:CV 0.6875 / 公共 LB 0.694 / 私有 LB 0.694

同比赛其他方案