返回列表

[placeholder] (8th->5th) place solution

382. Plant Pathology 2020 - FGVC7 | plant-pathology-2020-fgvc7

开始: 2020-03-09 结束: 2020-05-26 作物智能识别 数据算法赛
(第8名->第5名) 解决方案

(第8名->第5名) 解决方案

作者: Heroseo (团队成员: @aziz69, @datadote)
比赛: Plant Pathology 2020 - FGVC7
排名: 第5名

恭喜大家。非常感谢 Kaggle 和组织者举办这场精彩的比赛。特别感谢我的队友 @aziz69@datadote

我们一直担心过拟合问题。虽然不知道最终是否按计划奏效,但我还是想分享一下我们的解决方案。:)

数据增强

  • 垂直翻转、水平翻转、旋转、随机尺寸裁剪

主干网络

  • ResNet50, DenseNet121, InceptionResNetV2, 使用 noisy-student 权重的 EfficientNet-B7。
    相对而言,EfficientNet 在多种病害识别上的表现优于其他模型。

损失函数

  • 分类交叉熵 + Focal Loss

图像尺寸

  • 812, 1024
    (当图像尺寸在 800 左右时,分数有所提高。)

其他技巧

  • 伪标签
  • 随机权重平均 (SWA)
  • 标签平滑 (改善了 ResNet 的表现)
  • 测试时增强 (TTA) (改善了 EfficientNet / IncepResNet / DenseNet 的表现)
  • 过采样 (我们试图通过此方法来平衡数据)

对我们没有帮助的方法

  • Cutmix
  • Mix Up
  • GridMask
  • Blockout
  • 其他...

实际上,我做了很多实验,但无法一一写下来。(使用 CycleGAN 生成图像消耗了太多资源。)

我想分享一个失败的实验。我想解决数据不平衡的问题,于是使用了额外的数据来生成多种病害的数据。

[PlantPathology Apple Dataset]
https://www.kaggle.com/piantic/plantpathology-apple-dataset

最终,我生成了 224、512、1024 尺寸的图像。即使在我这双“拙眼”看来,512 和 1024 的图像似乎也无法使用。我挑选了一些有用的,但也只有几百张。而且当我用它进行训练时,分数反而更低,所以我没有采用它。

我分享一些生成的图像:

Generated Image 1 Generated Image 2 Generated Image 3 Generated Image 4 Generated Image 5
同比赛其他方案