32nd Place Solution

第 32 名解决方案

作者: KW
发布日期: 2025 年 3 月 8 日
竞赛排名: 第 32 名
队友: @cody11null, stefanoclss

首先，我想感谢组织者和 Kaggle 举办了如此精彩的比赛。我还要特别感谢我的队友 @cody11null 和 stefanoclss。

概述

为了提高目标变换的准确性，我们首先将每个 race_group 的生存时间变换为遵循对数逻辑分布，然后使用两种类型的目标变换，对多个 GBDT+TabM 和 nn_pairwise 模型的集成进行最终模型预测。

Solution Overview

目标变换

假设具有长生存时间 (efs=0) 的 efs_time 和具有短生存时间 (efs=1) 的 efs_time 遵循不同的统计分布，我们发现 efs=1 数据按 race_group 遵循独特的对数逻辑分布。然后提取遵循该对数逻辑分布的 efs=0 数据，并通过该分布的条件期望校正这些数据。使用这些数据，进行了两种目标变换（Kaplan-Meier 和 QuantileTransform）。

模型训练

我们进行了一些特征工程并构建了以下模型：

特征工程：独热编码 (One-hot encoding)、标签编码 (Label encoding) 和自定义特征
模型：19 个 GBDT + 7 个 nn 模型，如下所示；基于 KaplanMeier 目标的 GBDT (CAT, LGB, XGB) 和 TabM，具有单调性的 GBDT (CAT, LGB, XGB)，事件掩码 PRL-NN，Yunbase 模型等

集成模型

每个单一模型被分为几个块，并在第一层对每个块使用每个模型的 oof 进行 stacking 集成。通过重复试验增加每个块的多样性，构建了一个最大化 CV 和 LB 的模型。在第二层，构建了一个线性模型，其中第一层集成被加权以最大化 CV 的 c-index。最后，进行后处理以平衡每个 race_group 的分数并最大化 c-index。

提交结果

以下是我们的最终提交结果。
最佳成绩：CV 0.6875 / 公共 LB 0.694 / 私有 LB 0.694

第 32 名解决方案

概述

目标变换

模型训练

集成模型

提交结果

同比赛其他方案