返回列表

16th Place Solution: CNN, Yolov5, and use image-wise model to predict the cell

434. Human Protein Atlas - Single Cell Classification | hpa-single-cell-image-classification

开始: 2021-01-26 结束: 2021-05-11 生命科学 数据算法赛
第16名方案:CNN、Yolov5及利用图像级模型预测细胞

第16名方案:CNN、Yolov5及利用图像级模型预测细胞

作者: Alien (Team Leader), morizin, LucaMTB, joven1997, louieshao
比赛排名: 第16名

恭喜大家!我们很高兴能在这次比赛中获得第16名。我们要感谢我们的团队成员 @louieshao@lucamtb@joven1997@morizin 以及所有参赛者!特别感谢主办方举办了如此精彩的比赛!@emmalumpan@lnhtrang@cwinsnes@philculliton@maggiemd。这是我第一次看到主办方在讨论区如此热心地帮助大家解决问题,还发布了一些很棒的内核帮助我们深入了解这次比赛!大家做得太棒了!

流程 (Pipeline)

包含5个细胞级模型,3个图像级模型,1个Yolov5模型。所有图像级模型仅接收绿色通道。

Pipeline Diagram

权重

0.5 * 细胞级模型 + 0.3 * 图像级模型 + 0.1 * Yolov5模型 + 0.1 * 图像级模型(预测细胞)

细胞级模型

  • Efficientnet b0,包含外部数据,伪标签,训练10轮;
  • Efficientnet b0,包含外部数据,伪标签,训练1轮;
  • Efficientnet b7,包含外部数据,训练1轮;
  • Efficientnet b7,训练1轮;
  • Efficientnet b7,包含外部数据,仅绿色通道,训练1轮。

图像级模型

  • Efficientnet b7,包含外部数据,仅绿色通道,训练20轮;
  • Efficientnet b7,仅绿色通道,训练20轮 (我的公开内核);
  • Efficientnet b7,仅绿色通道,输入尺寸720,训练20轮 (@aristotelisch公开内核)。

细胞切片缩放技巧

添加填充以保持细胞切片的宽度等于高度,然后调整为输入尺寸,这样可以保持细胞切片的宽高比不变,极大地提高了我们的分数。

伪标签

考虑到细胞级切片的类别不可靠,我们认为对细胞进行伪标签可能有所帮助。我们的策略如下:

  1. 将数据集分为两部分;
  2. 用一部分预测另一部分;
  3. 对于每个类别的可能性:
    • i) 如果置信度值 > 0.8,将该类别放入类别列表;
    • ii) 如果置信度值 < 0.2,丢弃该类别;
    • iii) 如果置信度在 0.2 到 0.8 之间,保持类别不变。
    • iv) 如果一个细胞切片不属于任何类别,则考虑类别18的置信度值是否 > 0.2,如果是,我们将类别18放入类别列表;
    • v) 丢弃没有任何类别的细胞切片。

一些后记

我之前发布了我的公开内核,关于细胞级和图像级模型的集成。我很高兴看到它有所帮助。然而,在某些情况下,添加图像级

同比赛其他方案