13th Place Solution

567. Google Research - Identify Contrails to Reduce Global Warming | google-research-identify-contrails-reduce-global-warming

开始: 2023-05-10 结束: 2023-08-09 双碳与可持续发展数据算法赛

第13名解决方案 - Masaya

作者：Masaya (MASTER) 和 tereka (GRANDMASTER) | 竞赛排名：第13名

第13名解决方案

首先，我们要感谢组织者和Kaggle团队举办本次竞赛。

概述

我们总共集成了20个模型，包括2.5D模型和2D模型。

我们使用Nelder-Mead方法来确定具有恒定阈值的权重。

我认为对各个标签的预测取平均值是获得最佳分数的最佳方式。

以下是Masaya部分的简要介绍。

Masaya部分

数据预处理

我准备了两套评估数据：仅使用验证数据和使用交叉验证。

这是因为我也希望将验证数据用作训练数据，同时验证数据与Public LB高度相关。

也许提高我分数最重要的两点是：

标签数据在各个标注者之间取平均值
图像分辨率设置为512像素或更高

模型

EfficientNetb7-UNet
EfficientNetb7-Unet++
MiTb5-UNet

训练

自动混合精度（amp）（有时损失会变为NaN，为什么？）
优化器：AdamW
- 无权重衰减
学习率调度器：带warm up的余弦退火
- 初始学习率：3e-4 ~ 5e-4
损失函数：SoftBCE
交叉验证策略
- 保留验证集
- 分层K折（StratifiedKFold）
  - 使用训练数据或验证数据
  - 包含掩码
数据增强
- 水平翻转和垂直翻转（长期训练有效）
- 仅使用ShiftScaleRotate
- 不使用增强

后处理

阈值根据CV划分方式的不同而变化很大。

因此，通过简单平均进行集成得到的准确率较低。

所以，我们固定阈值，并使用Nelder-Mead方法确定使验证集性能最大化的权重。

对我无效的方法

伪标签
仅对正样本图像进行训练
正标签筛选
使用第一阶段分割预测作为输入的第二阶段模型
TTA（测试时增强）
其他波段图像

Masaya (MASTER) Kaggle个人资料 tereka (GRANDMASTER) Kaggle个人资料

同比赛其他方案

1st place solution

2nd place solution

3rd Place Solution: 2.5D U-Net

4th place solution

5th place solution (best single model, private LB 0.71443)