15th Place Solution(PB 0.173 Solution)

第 15 名解决方案 (PB 0.173 方案)

作者: Youhei Tomio
发布日期: 2024-09-07
竞赛排名: 第 15 名

大家好，我是 Youhei Tomio。
感谢主办方组织本次竞赛。

我使用 PB 171 代码本取得了第 15 名的排名，但我还有一个 PB 173 的代码本。方法上几乎没有区别。主要区别在于使用的 timm 图像模型类型，以及在将图像模型预测纳入表格模型时是否存在目标泄漏。在 PB 171 解决方案中存在目标泄漏，但在 PB 173 解决方案中没有。这里我将发布 PB 173 解决方案，它提供了更优越的方法。

解决方案总结

图像模型

我从 timm 中选择了六个模型，并将它们的预测纳入表格数据中。
数据增强和 TTA 仅添加了公共代码本中存在的内容。

模型	CV	输入尺寸
tf_efficientnet_b0_ns	0.1545	384
tf_efficientnetv2_m.in21k	0.1455	224
coatnet_rmlp_2_rw_224.sw_in1k	0.1555	224
eva02_small_patch14_336.mim_in22k_ft_in1k	0.1602	336
convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_320	0.1644	224
swin_large_patch4_window7_224.ms_in22k_ft_in1k	0.1594	224

我使用了三重分层无泄漏 KFold 交叉验证

表格模型

我使用了 3 个模型：LightGBM, CatBoost, XGBoost。我还应用了过采样和欠采样，对所有模型直接使用 @greysky 提供的比率。

特征工程

我利用了 @richolson 发布的“丑小鸭特征”。但是，我没有在 LightGBM 模型中包含包含图像数据信息的特征，而是将它们纳入到其他 2 个模型中。LightGBM 模型倾向于在图像数据上过拟合。

我从 @richolson 发布的“丑小鸭特征”中选择了几列，并使用 pyod 库中的 HBOS 算法创建了基于无监督学习的“丑小鸭特征”。
这种 HBOS 方法将 LB 分数提高了 +0.001。

这是一个显示基于目标的 HBOS 分布差异的直方图。

验证策略

我使用了上一届竞赛推荐的三重分层无泄漏 KFold 交叉验证。但是，由于 LB 和 CV 之间的相关性较低，我不信任 CV 分数。因此，我主要依赖 LB 分数。此外，在每次更新后，我通过更改种子值并观察 LB 分数的变化来定期检查模型的鲁棒性。

提交代码 LB0.173 点击查看代码