642. CIBMTR - Equity in post-HCT Survival Predictions | equity-post-HCT-survival-predictions
我想首先感谢用户 Ken Lee(@kendontcare11) 和 Albanito, (@albansteff),你们的公开 Notebook 给了我很多灵感,我将两者用于集成,并在很短的时间内取得了我所有解决方案中的最高分数。但非常遗憾(或不幸的是),我没有选择它作为最终提交,可能是因为我认为耗时较短的方案容易过拟合😭😭😭
这是我所有解决方案中最高的私有分数:
Top 30 解决方案 Notebook https://www.kaggle.com/code/aristotlechen/top-30-solution这个版本没有输出分数,因为我的 GPU 时长用完了,但这个私有分数至少是一个前 30 名的解决方案
由于我不是计算机相关专业人士,以下内容仅代表个人观点,如果有错误,请指出
我发现大多数程序不包含 LGBM,但直觉告诉我,很多时候我们忽略的东西正是我们需要的。CatBoost 用于类别特征处理,LightGBM 适用于大规模数据,XGBoost 在小数据集上表现更一致,三者的集成减少了单一模型的偏差和方差。
在医疗数据处理竞赛中,表格数据(例如 ISIC2024, Child Mind Institute - Problematic Internet Use 等)是主要的数据形式,TabNet 能够很好地捕捉这些特征之间的关系,TabNet 的特征选择能力有助于提高模型的泛化性能。
如果训练数据量不够(估计这个训练集为 30MB),可能会出现过拟合问题。
它可以通过学习缺失值的模式来填充数据,而无需额外的预处理步骤。(我没有使用它,因为我在 Child Mind Institute - Problematic Internet Use 中的模型经历了巨大的排名洗牌!)
加权平均法与基于排名的集成方法的比较:
与加权平均法相比,如果单个模型的预测结果已经更好,加权平均可以进一步提高性能。
排序方法丢失了原始预测值的具体信息,可能导致模型预测能力下降。虽然 C 指数基于排序,但分层 C 指数也要求模型的预测在不同种族群体之间保持一致(即具有较小的标准差)。排序方法可能会破坏模型跨群体间的预测一致性,导致标准差变大,从而降低最终分数。