返回列表

7th Place Solution

565. HuBMAP - Hacking the Human Vasculature | hubmap-hacking-the-human-vasculature

开始: 2023-05-22 结束: 2023-07-31 医学影像分析 数据算法赛
第7名解决方案 - yu4u

第7名解决方案

作者:yu4u(Kaggle Grandmaster)
发布时间:2023年8月1日

感谢HuBMAP举办这场激动人心的比赛,祝贺所有获奖者和奖牌得主!

  • 概述
    • 使用dataset1、2、3(伪标签)训练的Mask R-CNN模型
  • 训练流程
    • 使用dataset1训练模型(5折交叉验证)
    • 使用上述模型为dataset2、3生成伪标签(每折都生成)
    • 使用dataset1、2、3训练模型(5折交叉验证)
    • 对于dataset2,同时使用了原始(膨胀的)标注和伪标签
  • 模型
    • Mask R-CNN(Swin Transformer骨干网络,HTC RoI头)
  • 数据增强
    • 随机调整大小(768-1536)、翻转、90度旋转、随机亮度对比度、色调饱和度值
  • 测试时增强(TTA)
    • 调整大小(1024, 1536)、水平和垂直翻转
  • 集成
  • 后处理
    • 膨胀处理
    • 移除小掩码
    • 移除包含肾小球区域的掩码
  • 对我无效的方法
  • 膨胀还是不膨胀
    • 我在实验中发现,当仅使用dataset1进行训练时,不使用膨胀的分数比使用膨胀更高。因此,我怀疑膨胀的成功来源于有噪声的dataset2,并且是一种对LB的过拟合方法。因此,我尝试通过使用伪标签和dataset2的膨胀标注掩码来最小化使用膨胀和不使用膨胀之间的分数差异。
    • 在第一次提交中,使用膨胀的分数比不使用膨胀高出0.1,但在最终提交中,差异缩小到了0.02。然而,对于公共和私有LB,使用膨胀的提交仍然更好。
同比赛其他方案