BirdCLEF+ 2025 第 13 名解决方案

作者: HZM (leehann)

发布时间: 2025-06-07

比赛排名: 第 13 名

非常感谢主办方，我很高兴能参加这次比赛。我要特别感谢 RihanPiggy https://www.kaggle.com/honglihang，没有他的代码我们无法取得这么好的结果。此外，Koki（训练子集模型使最终解决方案提升 +0.01+）和 Zhang（后处理使解决方案提升 +0.004）也对最终结果产生了巨大影响。

解决方案概述

今年的比赛是行业中非常常见的问题，你在训练中有相对干净的数据，但在推理阶段却有非常脏的数据。如何克服域偏移（domain shifting）是赢得比赛的关键。train_soundscapes 将帮助我们缩小训练数据分布和测试数据分布之间的差距。

我们的解决方案几乎可以分为四个阶段，像所有其他获胜团队一样：

步骤 1:

使用 2023 年第 2 名的代码训练基础 SED 模型，使用 v2s (LB 0.84 ~ 0.85)
移除人声，这需要重新计算持续时间 (LB + 0.003)
在原始音频信号上使用 sumix 而不是 mixup (LB +0.01)
Koki 清理了训练数据 (LB +0.003)

经过上述所有步骤后，基础模型在公共 LB 上可以达到 0.865，这是一个很好的起点。

步骤 2:

使用步骤 1 的模型进行伪标签数据生成，并推理 5 秒数据。
将上述 5 秒片段通过随机采样放入训练音频中，这将极大地提升 LB (+0.03 ~ 0.04)。

步骤 3:

完成上述实验后，我们试图寻找其他模型进行集成，这是最耗时的。我们尝试了很多骨干网络，但都没有 v2s 好。我们使用了以下模型：

seresnext26t LB 0.899
v2_b3 LB 0.901

v2_b3 之所以有效，是因为 v2_b3 和 v2s 有非常相似的模型结构。这也导致模型集成带来的 LB 提升不大 (+0.04)。我想大多数团队都有同样的问题。

步骤 4:

受 2024 年前 6 名解决方案的启发，我们训练了稀有类别专用模型并将其加入最终解决方案，这给我们的 LB 带来了巨大提升 (+0.1)。

这就是我们所有的解决方案，希望你们喜欢。
Happy Kaggle.

团队成员

HZM (leehann) Grandmaster ITK8191 (itsuki9180) Grandmaster Donghui Zhang (gentlezdh) Master Koki Shibata (kekshibata) Expert

13rd solution for BirdCLEF+ 2025