[43rd place] Our CV strategy (+77 positions in private)

[第43名] 我们的CV策略（Private榜提升77名）

作者： Guillermo García Cobo | 比赛排名： 第43名

如果有同行感兴趣的话，我们想分享一下在比赛中划分训练数据集所采用的策略。我们的交叉验证（CV）分数在整个比赛过程中与公开排行榜（LB）高度相关（误差在+0.002以内），这也是我们在私有排行榜上排名大幅提升的部分原因。

分组：正如许多 Kaggle 参赛者提到的，按折将不同的病例进行分组非常重要。为此，我们可以使用 sklearn 的 GroupKFold。我们相信这一点每个团队都做到了。
分层：在各个公开的 Kernel 中可以看到许多执行分层的方法。在我们的案例中，我们认为保持同一切片中标记的多个类别的不同可能组合的分布很重要。通过这样做，我们希望防止模型总是预测特定的组合。也就是说，例如，如果（小肠，大肠）的比例大于其他组合，模型将倾向于总是将它们两者预测在一起。
评估指标：我们认为获得良好 CV-LB 相关性的最后一点关键在于实现正确的评估指标。由于没有发布官方版本，根据给出的简短描述对其进行逆向工程是一个巨大的挑战。我们指标的最终版本在这篇文章中进行了描述。

我已经上传了这个 Notebook，其中实现了上述描述的 CV 划分方式。

我很乐意阅读关于如何进行 CV 的其他建议，因为这似乎是比赛的关键部分，所以请在评论中分享！

[第43名] 我们的CV策略（Private榜提升77名）