339. Recursion Cellular Image Classification | recursion-cellular-image-classification
感谢 Recursion 和 Kaggle 主办了如此有趣的比赛,参与其中真的非常有趣。
更新:源代码在此:https://github.com/maciej-sypetkowski/kaggle-rcic-1st
我发现不对头部输入进行归一化很重要,这就是为什么头部和 Arc Margin Product 是具有不同全连接层权重的独立层(与 bestfitting 在 Human Protein Atlas 图像分类中所做的相反)。
使用这种配置(在数据集的所有标记部分进行训练——无验证),我获得了 0.98997 的 Private 分数和 0.95802 的 Public 分数(单模型)。将其与以相同或非常相似的方式训练的模型集成(其中大多数训练/验证拆分为 5:1)(3x DenseNet161, 2x DenseNet161 使用 mixup (代替 cutmix), 5x DenseNet201 也使用 mixup, 3x ResNeXt50 也使用 mixup)给了我 0.99540 Private 和 0.98262 Public(在 Private LB 上介于第 3-4 名之间)。
为了用单模型达到 0.997 Private 分数,我需要添加另一个技巧,我称之为:
在我目前读过的所有文章中,伪标签方法包括迭代训练新模型并使用它们扩大训练集。在我的方法中,每个 epoch 都会将少量最自信的预测进行伪标记并添加到训练集中。具体来说,对于每个 epoch: