返回列表

16th Place Solution

633. Child Mind Institute — Problematic Internet Use | child-mind-institute-problematic-internet-use

开始: 2024-09-19 结束: 2024-12-19 健康管理与公共卫生 数据算法赛
第 16 名解决方案

第 16 名解决方案

作者: Jack (Japan) (rsakata)
发布时间: 2024-12-20
竞赛排名: 16

这可能部分归功于运气,但我很高兴能冲进金牌范围。

我发布了我的解决方案 notebook。

我的解决方案主要要点如下:

  • 使用 IterativeImputer 进行缺失值填补
  • 基于 parquet 文件的特征工程
  • 使用自定义 QWK 目标和指标进行 LightGBM 训练
  • 进行 10 x 10 嵌套交叉验证以获得可靠的验证分数和稳定的测试预测
  • 仅使用嵌套交叉验证的总体预测进行一次阈值优化。

有关上述要点的更多详细信息,请参阅我的 notebook。
为了确认我的解决方案的稳健性,我改变了 StratifiedKFold 的种子,并在后期提交中检查了 LB 分数。结果如下。

种子 (Seed) 公共 LB 私有 LB
0 0.441 0.468
1 0.442 0.466
2 0.446 0.464
3 0.432 0.472
4 0.447 0.465
5 0.435 0.470
6 0.432 0.471
7 0.442 0.470
8 0.441 0.470
9 0.446 0.469
平均 0.440 0.469

性能看起来相对稳定。我还进行了如下简要的消融研究。

描述 CV (嵌套) 公共 LB 私有 LB
原始 0.4884 0.433 0.470
无 Parquet 特征 0.4821 0.442 0.464
无缺失值填补 0.4726 0.423 0.438
无 Parquet 特征和缺失值填补 0.4602 0.440 0.412
无自定义目标和指标 0.4810 0.436 0.471

这是基于单次执行的结果,但从这些结果来看,缺失值填补在这次比赛中似乎很重要。不幸的是,我的自定义目标和指标仅对 CV 分数有所贡献。然而,我计划继续探索这个想法的有效性。

感谢阅读!

同比赛其他方案