17th place solution

第17名解决方案

作者：Xuan Cao (Grandmaster)
比赛排名：第17名

恭喜所有的获奖者。这是我的解决方案。

我的解决方案非常直接。我将其视为一个回归问题。这是以下几个模型的线性叠加：

efficientnet-b0
efficientnet-b3
efficientnet-b4
efficientnet-b5

其他重要特征：

图像尺寸：380
预训练数据：2015年训练数据，在2015年公共测试集上验证，并在2015年私有测试集上测试。
微调数据：2019年训练数据（5折交叉验证）。
数据增强：水平/垂直翻转，旋转(0-360度)，缩放(0 - 0.1)，对比度(0-0.2)和亮度(0-0.2)。
TTA（测试时增强）：8倍(水平/垂直翻转 + 缩放(0, 0.1))

唯一可以被视为技巧的是所应用的裁剪方式：

2015年的数据质量很高，所以我决定对所有图像进行中心方形裁剪。
对于2019年的数据，所有1:1比例的图像都使用4:3的纵横比进行缩放裁剪（随机放大 0 - 0.18）。

为什么要区别对待？这是因为我发现在移除所有黑色区域后，2019年的数据中只有两种纵横比（1:1和4:3），并且约99%的1:1图像属于1级（Class 1）。当放大到0.18时，1:1图像中剩余的黑色区域看起来与其余的4:3图像完全一样。我希望经过这种处理后，模型能根据中心区域的信息对1级图像进行分类，而不是依据黑色区域的比例/形状或纵横比。

我认为4:3的图像是从1:1图像放大而来的，因为当医生在一张图像中发现疾病的潜在标志物时，他们会放大以验证他们的发现。放大后，他们直接保存了放大后的图像。为什么是4:3？我猜这是大多数软件UI的设计方式。

离金牌区只有一步之遥，这让我有点难以接受，但这就是Kaggle的运作方式。我想我需要更加努力才能拿到我的单人金牌。

顺便说一句，交叉验证（CV）的二次加权Kappa（QWK）分数与私有排行榜（Private LB）完全吻合。对于我最好的解决方案（QWK 0.930），本地CV（QWK）为0.93456。“相信本地CV”这条黄金法则再次应验了！

第17名解决方案

同比赛其他方案