37th Place Solution(And Let's talk about CV and private score)

第37名解决方案（谈谈CV和Private得分）

作者： Tahsin Mostafiz | 比赛排名： 第37名

既然一些顶尖排名的解决方案已经公开了，我不确定这篇笔记是否会带来什么新内容。只是分享一下我的经验。 :)

我最终的LB得分是由5个Efficientnet模型集成得到的。概览如下：

预处理：仅使用了 @tanlikesmath 在该Kernel中提到的圆形裁剪。
数据增强：水平翻转和垂直翻转，360度旋转，缩放20%-25%，光照50%。使用了Fast.ai的变换。
训练：主要遵循 @drhabib 的方法。使用 2015 年数据作为训练集，2019 年数据作为验证集进行了“5+10”轮的训练。然后，我使用 sklearn 的分层抽样函数将 2019 年的数据按80:20的比例分割，并在其上对之前训练的模型进行了15个epoch的微调。我根据验证损失选择了看起来没有过拟合的最佳模型用于提交。我使用了固定的随机种子，以便可以在相同的验证集上比较不同模型的性能。没有使用交叉验证（CV）或测试时增强（TTA）。

正如 @rishabhiitbhu 所展示的那样，不同数据集的类别分布非常相似，我有一种直觉，即对于我们庞大的测试集来说，情况也不会有太大不同。这就是为什么我信任我的分层验证数据（简直不敢想象如果我当时错了会发生什么）。

我的验证得分和Public得分似乎并不相关，但现在Private得分与我的验证得分非常相似。以下是我使用的模型摘要：

模型	图像尺寸	验证集 Kappa	Public Kappa	Private Kappa
Efficientnet B2	256	0.922	0.807	0.918
Efficientnet B1	256	0.926	0.804	0.921
Efficientnet B0	256	0.919	0.816	0.914
Efficientnet B3	256	0.921	0.812	0.917
Efficientnet B5	300	0.920	0.802	0.916
集成模型		0.932	0.826	0.926

请分享并让我们知道您的CV和Private得分。同时祝贺那些在LB大洗牌中幸存下来的人。 :)

第37名解决方案（谈谈CV和Private得分）