返回列表

5th Place Solution Summary

420. Cassava Leaf Disease Classification | cassava-leaf-disease-classification

开始: 2020-11-19 结束: 2021-02-18 作物智能识别 数据算法赛
第5名方案总结

第5名方案总结

作者:YokkaBear
比赛排名:第5名

这是我第一次完整地参加一场真正的 Kaggle 比赛。由于这是我所在地区即将到来的招聘季前,我在平淡无奇的简历上写点东西的最后机会,我原本期望能获得前 10% 左右的名次,当然越高越好。在私有排行榜发布之前,我从未想过自己能进入金牌区。对我来说,这真是一次宝贵且难忘的经历。

感谢那些善良甚至无私的 Kagglers,他们为每个 Kernel 和讨论贡献了问题、想法、见解和技术,他们真的启发了我,帮助我学到了很多。特别感谢 @Heroseo@khyeh0719@szuzhangzhi@serigne@debarshichanda@prvnkmr(篇幅有限,恕未能一一列举),你们的作品和回答为我的 LB 和 PB 分数带来了真正的进步和提升。

回到正题,我想分享我为最终提交选择的方案,仅供参考,因为本次比赛第一名团队的方案显然更加精致和稳健。

第一次最终选择(第5名)

  • PB: 0.9019, LB: 0.9030
  • 推理 Kernel:
    • img_size = 384
    • model_8 (vit16) + model_13 (efn-b4-cmix)(双模型集成)
    • TTA: 随机裁剪、转置、水平/垂直翻转、色调、随机亮度、归一化
  • 训练 Kernel:
    • 训练 model_8:
      • 数据集:仅 Cassava 2020
      • vit-b16 + img_size = 384 + 数据增强 + 双温度逻辑损失 (bi-tempered logistic loss) (t1=0.8, t2=1.4)
    • 训练 model_13:
      • 数据集:仅 Cassava 2020
      • efn-b4 + img_size = 512 + 数据增强 + 双温度逻辑损失 (t1=0.8, t2=1.4) + Cutmix

第二次最终选择

  • PB: 0.9002, LB: 0.9039
  • 推理 Kernel:
    • img_size = 384
    • model_8 (vit16) + model_13_ft_2 (efn-b4-cmix) + model_10 (deit)(三模型集成)
    • TTA: 随机裁剪、转置、水平/垂直翻转、色调、随机亮度、归一化
    • 集成权重=[0.5, 0.3, 0.2]
  • 训练 Kernel:
    • 训练 model_8:
      • 数据集:仅 Cassava 2020
      • vit-b16 + img_size = 384 + 数据增强 + 双温度逻辑损失 (t1=0.8, t2=1.4)
    • 训练 model_13_ft_2:
      • 数据集:Cassava 2019 + 2020 合并数据集
      • 微调 model_13:冻结非分类器层 + 双温度逻辑损失 (t1=0.8, t2=1.4) + Cutmix
    • 训练 model_10:
      • 数据集:仅 Cassava 2020
      • deit-b16 + img_size = 384 + 数据增强 + 双温度逻辑损失 (t1=0.8, t2=1.4)

经验总结

根据我在本次比赛中的经验,得出一些初步结论:

  1. 在大多数情况下,集成模型的效果优于单模型推理。
  2. Cutmix 可以提高小模型(如 efn-b4)的分类性能。
  3. 利用 OOF(袋外预测)进行标签删除/去噪可能对 LB 有用(我以此获得了第二高的 LB 分
同比赛其他方案