第15名解决方案
作者:stakahashi, HYW, Kelvin | 发布时间:2023-08-10 03:09:47 | 排名:第15名
第15名解决方案
感谢主办方举办本次比赛,也感谢队友的合作。
总结
我们的解决方案并无特别之处,只是4个不同图像尺寸的EfficientNetV2模型的集成:
- 2个l模型,图像尺寸为768x768(不同种子)
- 1个l模型,图像尺寸为1024x1024
- 1个s模型,图像尺寸为1536x1536
前3个模型在validation文件夹的图像上得分相似,约为0.690~0.692,最后一个模型得分为0.685。集成后的得分为0.6936。
有效的方法
- 数据增强
- 水平垂直翻转(HV Flip)
- 旋转(Rotate)
- 随机缩放然后裁剪
- 测试时增强(TTA)
- 设置
"drop_path_rate": 0.2和"drop_rate": 0.2
- 将时间步3和5作为伪标签加入
- 焦点损失(Focal loss)
但是我认为,与解决标签错位问题以及使用单独的人工标注掩码作为新标签(如其他讨论中提到的)相比,上述改进的微小提升并不显著(我计划之后进行实验)。
无效的方法
- 其他数据增强
- ColorJitter(颜色抖动)
- HueSaturationValue(色调饱和度值)
- RandomBrightnessContrast(随机亮度对比度)
- RandomGamma(随机伽马)
- RandomFog(随机雾)
- RandomShadow(随机阴影)
- CoarseDropout(粗略丢弃)
- MixUp(混合)
- 添加更多时间步作为伪标签
- 添加伪标签轮次
- 我专注于训练2.5D和3D模型,但完全没有效果:
- 仅3D模型(例如Resnet3D)
- 3D编码器 + 2.5D解码器
- 将其他时间帧的预测作为额外通道输入
- 堆叠两个Unet,第一个预测多个时间帧的分割掩码,第二个将这些掩码按通道维度堆叠后作为输入