382. Plant Pathology 2020 - FGVC7 | plant-pathology-2020-fgvc7
恭喜大家。非常感谢 Kaggle 和主办方举办这次比赛。特别感谢我的队友。
我们注意到同一张图片存在不同的标签,例如 Train_379 和 Train_1173 完全是同一张图片,但它们有不同的标签。
训练集中有些图片是由同一张图片生成的,但它们有不同的标签。从图片 Train_171 和 Train_1 的细节可以看出,它们是由同一张图片生成的,但标记不同。
因此,我们主要想解决训练数据集中的噪声标签问题。我们使用了知识蒸馏方法,首先训练一个 5 折模型并获得验证集的袋外结果,然后将袋外结果和真实标签按 3:7 的比例混合,作为新训练模型的标签。
本次比赛的数据量非常小,且数据分布不平衡。一个具有多种疾病类别的样本被错误分类将对最终结果产生重大影响。所以,不要相信公共排行榜,要相信你的交叉验证(CV)。