返回列表

43rd place: Every cloud has a silver lining

642. CIBMTR - Equity in post-HCT Survival Predictions | equity-post-HCT-survival-predictions

开始: 2024-12-04 结束: 2025-03-05 临床决策支持 数据算法赛
第 43 名:黑暗中总有一线光明

第 43 名:黑暗中总有一线光明

作者:Aristotle.Chen  |  日期:2025-03-06  |  排名:43

我想首先感谢用户 Ken Lee(@kendontcare11) 和 Albanito, (@albansteff),你们的公开 Notebook 给了我很多灵感,我将两者用于集成,并在很短的时间内取得了我所有解决方案中的最高分数。但非常遗憾(或不幸的是),我没有选择它作为最终提交,可能是因为我认为耗时较短的方案容易过拟合😭😭😭

这是我所有解决方案中最高的私有分数:

Top 30 解决方案 Notebook https://www.kaggle.com/code/aristotlechen/top-30-solution

这个版本没有输出分数,因为我的 GPU 时长用完了,但这个私有分数至少是一个前 30 名的解决方案


由于我不是计算机相关专业人士,以下内容仅代表个人观点,如果有错误,请指出

  1. 我发现大多数程序不包含 LGBM,但直觉告诉我,很多时候我们忽略的东西正是我们需要的。CatBoost 用于类别特征处理,LightGBM 适用于大规模数据,XGBoost 在小数据集上表现更一致,三者的集成减少了单一模型的偏差和方差。

  2. 在医疗数据处理竞赛中,表格数据(例如 ISIC2024, Child Mind Institute - Problematic Internet Use 等)是主要的数据形式,TabNet 能够很好地捕捉这些特征之间的关系,TabNet 的特征选择能力有助于提高模型的泛化性能。
    如果训练数据量不够(估计这个训练集为 30MB),可能会出现过拟合问题。
    它可以通过学习缺失值的模式来填充数据,而无需额外的预处理步骤。(我没有使用它,因为我在 Child Mind Institute - Problematic Internet Use 中的模型经历了巨大的排名洗牌!)

  3. 加权平均法与基于排名的集成方法的比较
    与加权平均法相比,如果单个模型的预测结果已经更好,加权平均可以进一步提高性能。
    排序方法丢失了原始预测值的具体信息,可能导致模型预测能力下降。虽然 C 指数基于排序,但分层 C 指数也要求模型的预测在不同种族群体之间保持一致(即具有较小的标准差)。排序方法可能会破坏模型跨群体间的预测一致性,导致标准差变大,从而降低最终分数。

同比赛其他方案