16th Place Solution: CNN, Yolov5, and use image-wise model to predict the cell

第16名方案：CNN、Yolov5及利用图像级模型预测细胞

作者： Alien (Team Leader), morizin, LucaMTB, joven1997, louieshao
比赛排名： 第16名

恭喜大家！我们很高兴能在这次比赛中获得第16名。我们要感谢我们的团队成员 @louieshao、@lucamtb、@joven1997、@morizin 以及所有参赛者！特别感谢主办方举办了如此精彩的比赛！@emmalumpan、@lnhtrang、@cwinsnes、@philculliton、@maggiemd。这是我第一次看到主办方在讨论区如此热心地帮助大家解决问题，还发布了一些很棒的内核帮助我们深入了解这次比赛！大家做得太棒了！

流程 (Pipeline)

包含5个细胞级模型，3个图像级模型，1个Yolov5模型。所有图像级模型仅接收绿色通道。

权重

0.5 * 细胞级模型 + 0.3 * 图像级模型 + 0.1 * Yolov5模型 + 0.1 * 图像级模型(预测细胞)

细胞级模型

Efficientnet b0，包含外部数据，伪标签，训练10轮；
Efficientnet b0，包含外部数据，伪标签，训练1轮；
Efficientnet b7，包含外部数据，训练1轮；
Efficientnet b7，训练1轮；
Efficientnet b7，包含外部数据，仅绿色通道，训练1轮。

图像级模型

Efficientnet b7，包含外部数据，仅绿色通道，训练20轮；
Efficientnet b7，仅绿色通道，训练20轮 (我的公开内核)；
Efficientnet b7，仅绿色通道，输入尺寸720，训练20轮 (@aristotelisch 的公开内核)。

细胞切片缩放技巧

添加填充以保持细胞切片的宽度等于高度，然后调整为输入尺寸，这样可以保持细胞切片的宽高比不变，极大地提高了我们的分数。

伪标签

考虑到细胞级切片的类别不可靠，我们认为对细胞进行伪标签可能有所帮助。我们的策略如下：

将数据集分为两部分；
用一部分预测另一部分；
对于每个类别的可能性：
- i) 如果置信度值 > 0.8，将该类别放入类别列表；
- ii) 如果置信度值 < 0.2，丢弃该类别；
- iii) 如果置信度在 0.2 到 0.8 之间，保持类别不变。
- iv) 如果一个细胞切片不属于任何类别，则考虑类别18的置信度值是否 > 0.2，如果是，我们将类别18放入类别列表；
- v) 丢弃没有任何类别的细胞切片。

一些后记

我之前发布了我的公开内核，关于细胞级和图像级模型的集成。我很高兴看到它有所帮助。然而，在某些情况下，添加图像级