433. HuBMAP - Hacking the Kidney | hubmap-kidney-segmentation
我们使用了三种类型模型的简单集成。(包括:来自5折交叉验证的三个 b7 模型[1],使用其他种子在5折中表现最好的一个 b7 模型[2],以及使用 d488 标签的四个 b5 模型[3])。
在本次比赛中,伪标签对我们的提交结果有很大影响。接下来我将介绍我的策略。
首先,我们使用 Zhao 的标签训练了一个 b7 模型,LB 分数达到了 0.934。然后我将该模型与模型[2]结合,分数达到了 0.935。我根据 d488 的结果绘制了一些丢失的目标,直到我们的分数达到 0.937,这也是模型[3]中使用的伪标签。
根据主办方的评论,我坚信伪标签的作用,但在 Public LB 的实验中,我发现使用 d488 可能会损害在 575 数据集上的预测。因此我必须谨慎处理,因为 TN(真阴性)比 FN(假阴性)更致命。我对它既喜欢又害怕,因此,我将它们(模型[3])作为模型集成的一部分,并调整其权重以减少其影响,同时将提交分为两部分以减少边缘错误。(重叠部分 overlap = 230, overlap = 32)。
三个模型[1]在第一部分进行集成。由于技术限制,我选择的 TTA 策略为:TTA[0] -> model[0],TTA[1] -> model[1],TTA[2] -> model[2]。然后使用加权平均合并它们的结果,以使第一部分的结果更加稳定。
五个模型(模型[2]、模型[3])在第二部分进行集成。我在这一部分使用模型[2]作为引导者。TTA 策略为:TTA[0] -> model[0]-(Guider),TTA[1] -> [model[1], model[2]],TTA[2] -> [model[3], model[4]]。由于重叠部分非常小,我使用这部分结果与第一部分结果的平均值。
与不使用伪标签相比,在我们的策略中,Private 分数可以提高约 +0.003 ~ +0.004(从 0.945 提升到 0.949)。我的模型参数调整得不够好,因此单模型的分数并不高(0.942)。
这是我第一次参加 CV(计算机视觉)比赛,也是我在 Kaggle 的第二次比赛。由于比赛周期较长,我的队友忙于毕业,后期没有时间参与。非常感谢 @iafoss、@wrrosa 和其他参赛者出色的 Notebooks,这让我在几个月内熟悉了 CV 比赛的流程。我的一些逻辑和想法可能看起来很有趣,因为这些策略有时是基于我的直觉和猜测,我在未来的生活中仍需学习和提高。