6th place solution (human-in-the-loop) | 优胜方案

第6名方案 (人机回环)

作者: shinmura0 | 比赛: BirdCLEF 2022 | 排名: 6/867

首先，我要感谢比赛主办方和Kaggle团队组织了如此有趣的比赛。也要感谢所有的Kagglers。

概述

也许我的SED模型和你的模型是一样的。
清洗数据和后处理是我方案中的重点。

在BirdClef2021比赛中，我制作了标注数据，效果很好。但是手工标注非常耗时。
因此，在本次比赛中，我没有采用手工标注，而是使用了人机回环的方法：

通过这种“人机回环”方式，我制作了2000条清洗数据。这些数据仅包含计分鸟类。

我使用了3种类型的数据。

HIL_data (=人机回环数据)
- 包含外部数据
other_data (不计分鸟类数据，约130种)
- 初始3秒音频
- 标签为 primary_label
psuedo_data (计分鸟类，且不包含HIL音频)
- 初始3秒音频
- 伪标签 = 0.25*primary_label + 0.25*第一代模型 + 0.5*第二代模型

训练数据的比例如下，这是最佳比例：

HIL_data : other_data : psuedo_data = 1 : 4 : 1