返回列表

13rd solution for BirdCLEF+ 2025

654. BirdCLEF+ 2025 | birdclef-2025

开始: 2025-03-10 结束: 2025-06-05 环境监测 数据算法赛
BirdCLEF+ 2025 第 13 名解决方案

BirdCLEF+ 2025 第 13 名解决方案

作者: HZM (leehann)

发布时间: 2025-06-07

比赛排名: 第 13 名

非常感谢主办方,我很高兴能参加这次比赛。我要特别感谢 RihanPiggy https://www.kaggle.com/honglihang,没有他的代码我们无法取得这么好的结果。此外,Koki(训练子集模型使最终解决方案提升 +0.01+)和 Zhang(后处理使解决方案提升 +0.004)也对最终结果产生了巨大影响。

解决方案概述

今年的比赛是行业中非常常见的问题,你在训练中有相对干净的数据,但在推理阶段却有非常脏的数据。如何克服域偏移(domain shifting)是赢得比赛的关键。train_soundscapes 将帮助我们缩小训练数据分布和测试数据分布之间的差距。

我们的解决方案几乎可以分为四个阶段,像所有其他获胜团队一样:

步骤 1:

使用 2023 年第 2 名的代码训练基础 SED 模型,使用 v2s (LB 0.84 ~ 0.85)
移除人声,这需要重新计算持续时间 (LB + 0.003)
在原始音频信号上使用 sumix 而不是 mixup (LB +0.01)
Koki 清理了训练数据 (LB +0.003)

经过上述所有步骤后,基础模型在公共 LB 上可以达到 0.865,这是一个很好的起点。

步骤 2:

使用步骤 1 的模型进行伪标签数据生成,并推理 5 秒数据。
将上述 5 秒片段通过随机采样放入训练音频中,这将极大地提升 LB (+0.03 ~ 0.04)。

步骤 3:

完成上述实验后,我们试图寻找其他模型进行集成,这是最耗时的。我们尝试了很多骨干网络,但都没有 v2s 好。我们使用了以下模型:

seresnext26t LB 0.899
v2_b3 LB 0.901

v2_b3 之所以有效,是因为 v2_b3 和 v2s 有非常相似的模型结构。这也导致模型集成带来的 LB 提升不大 (+0.04)。我想大多数团队都有同样的问题。

步骤 4:

受 2024 年前 6 名解决方案的启发,我们训练了稀有类别专用模型并将其加入最终解决方案,这给我们的 LB 带来了巨大提升 (+0.1)。

这就是我们所有的解决方案,希望你们喜欢。
Happy Kaggle.

同比赛其他方案