返回列表

13th Place Solution

567. Google Research - Identify Contrails to Reduce Global Warming | google-research-identify-contrails-reduce-global-warming

开始: 2023-05-10 结束: 2023-08-09 双碳与可持续发展 数据算法赛
第13名解决方案 - Masaya
作者:Masaya (MASTER) 和 tereka (GRANDMASTER) | 竞赛排名:第13名

第13名解决方案

首先,我们要感谢组织者和Kaggle团队举办本次竞赛。

概述

我们总共集成了20个模型,包括2.5D模型和2D模型。

我们使用Nelder-Mead方法来确定具有恒定阈值的权重。

我认为对各个标签的预测取平均值是获得最佳分数的最佳方式。

以下是Masaya部分的简要介绍。

Masaya部分

数据预处理

我准备了两套评估数据:仅使用验证数据和使用交叉验证。

这是因为我也希望将验证数据用作训练数据,同时验证数据与Public LB高度相关。

也许提高我分数最重要的两点是:

  • 标签数据在各个标注者之间取平均值
  • 图像分辨率设置为512像素或更高

模型

  • EfficientNetb7-UNet
  • EfficientNetb7-Unet++
  • MiTb5-UNet

训练

  • 自动混合精度(amp)(有时损失会变为NaN,为什么?)
  • 优化器:AdamW
    • 无权重衰减
  • 学习率调度器:带warm up的余弦退火
    • 初始学习率:3e-4 ~ 5e-4
  • 损失函数:SoftBCE
  • 交叉验证策略
    • 保留验证集
    • 分层K折(StratifiedKFold)
      • 使用训练数据或验证数据
      • 包含掩码
  • 数据增强
    • 水平翻转和垂直翻转(长期训练有效)
    • 仅使用ShiftScaleRotate
    • 不使用增强

后处理

阈值根据CV划分方式的不同而变化很大。

因此,通过简单平均进行集成得到的准确率较低。

所以,我们固定阈值,并使用Nelder-Mead方法确定使验证集性能最大化的权重。

对我无效的方法

  • 伪标签
  • 仅对正样本图像进行训练
  • 正标签筛选
  • 使用第一阶段分割预测作为输入的第二阶段模型
  • TTA(测试时增强)
  • 其他波段图像
同比赛其他方案