43rd place: Every cloud has a silver lining

第 43 名：黑暗中总有一线光明

作者：Aristotle.Chen | 日期：2025-03-06 | 排名：43

我想首先感谢用户 Ken Lee(@kendontcare11) 和 Albanito, (@albansteff)，你们的公开 Notebook 给了我很多灵感，我将两者用于集成，并在很短的时间内取得了我所有解决方案中的最高分数。但非常遗憾（或不幸的是），我没有选择它作为最终提交，可能是因为我认为耗时较短的方案容易过拟合😭😭😭

这是我所有解决方案中最高的私有分数：

Top 30 解决方案 Notebook https://www.kaggle.com/code/aristotlechen/top-30-solution

这个版本没有输出分数，因为我的 GPU 时长用完了，但这个私有分数至少是一个前 30 名的解决方案

由于我不是计算机相关专业人士，以下内容仅代表个人观点，如果有错误，请指出

我发现大多数程序不包含 LGBM，但直觉告诉我，很多时候我们忽略的东西正是我们需要的。CatBoost 用于类别特征处理，LightGBM 适用于大规模数据，XGBoost 在小数据集上表现更一致，三者的集成减少了单一模型的偏差和方差。
在医疗数据处理竞赛中，表格数据（例如 ISIC2024, Child Mind Institute - Problematic Internet Use 等）是主要的数据形式，TabNet 能够很好地捕捉这些特征之间的关系，TabNet 的特征选择能力有助于提高模型的泛化性能。
如果训练数据量不够（估计这个训练集为 30MB），可能会出现过拟合问题。
它可以通过学习缺失值的模式来填充数据，而无需额外的预处理步骤。（我没有使用它，因为我在 Child Mind Institute - Problematic Internet Use 中的模型经历了巨大的排名洗牌！）
加权平均法与基于排名的集成方法的比较：
与加权平均法相比，如果单个模型的预测结果已经更好，加权平均可以进一步提高性能。
排序方法丢失了原始预测值的具体信息，可能导致模型预测能力下降。虽然 C 指数基于排序，但分层 C 指数也要求模型的预测在不同种族群体之间保持一致（即具有较小的标准差）。排序方法可能会破坏模型跨群体间的预测一致性，导致标准差变大，从而降低最终分数。

第 43 名：黑暗中总有一线光明

同比赛其他方案