返回列表

1st place solution(single model)

382. Plant Pathology 2020 - FGVC7 | plant-pathology-2020-fgvc7

开始: 2020-03-09 结束: 2020-05-26 作物智能识别 数据算法赛
第一名方案(单模型)

第一名方案(单模型)

作者:yelan (Grandmaster)
团队:Alipay Tian Suan Security Lab

恭喜大家。非常感谢 Kaggle 和主办方举办这次比赛。特别感谢我的队友。

数据问题

我们注意到同一张图片存在不同的标签,例如 Train_379 和 Train_1173 完全是同一张图片,但它们有不同的标签。

数据标签示例

训练集中有些图片是由同一张图片生成的,但它们有不同的标签。从图片 Train_171 和 Train_1 的细节可以看出,它们是由同一张图片生成的,但标记不同。

图片细节对比1 图片细节对比2

因此,我们主要想解决训练数据集中的噪声标签问题。我们使用了知识蒸馏方法,首先训练一个 5 折模型并获得验证集的袋外结果,然后将袋外结果和真实标签按 3:7 的比例混合,作为新训练模型的标签。

模型

数据增强

  • 亮度、对比度
  • 模糊
  • 翻转
  • 平移、缩放、旋转

主干网络

  • seresnextnet50

图片尺寸

  • 320x512

损失函数

  • 交叉熵损失

推理

  • 5 折平均和 5 次 TTA(测试时增强)

其他

本次比赛的数据量非常小,且数据分布不平衡。一个具有多种疾病类别的样本被错误分类将对最终结果产生重大影响。所以,不要相信公共排行榜,要相信你的交叉验证(CV)。

同比赛其他方案