398. Global Wheat Detection | global-wheat-detection
大家好!在这次比赛中能与大家并肩作战真是一种荣幸。在 YOLOv5 出现之前,我曾在公共排行榜上名列第二,这要归功于一个巧妙的小技巧,它带给我的提升比预期的要大。
我使用的是 EffecientDetB5 模型,在没有任何 TTA(测试时增强)的情况下,公共榜单得分约为 0.72。使用了我的 TTA 技巧后,得分大幅提升到了 0.7535。我将在下面解释这一点,并且很想听听大家关于它为何如此有用的意见。此外,这里有一个包含工作示例的 Notebook。
我的动机是我没有时间训练 1024x1024 的分辨率,但我仍然希望在训练 640x640 的同时能够利用全分辨率的信息。所以我的想法是:
这是一张解释象限 + 全图缩放的示意图。

我不想保留任何太靠近象限边缘的框,因为它们可能会切过麦穗的中间部分。所以我丢弃了它们。

现在你可以明白为什么我也对缩放后的全图进行了推理。我想捕获任何可能被上述方法丢弃的框。
我发现使用这种方法时,训练期间的 mosaic 数据增强对我的分数没有帮助。我坚持对训练图像进行随机缩放裁剪。裁剪的大小均匀分布在 [640, 1024] 之间。这样我就获得了经常在接近全分辨率下训练的好处。
我实际上不熟悉多尺度推理的概念。我知道这是一种 TTA 技术。具体发生了什么?它和我做的类似吗?