654. BirdCLEF+ 2025 | birdclef-2025
感谢组织者举办如此精彩且结构完善的竞赛。我也非常感激那些 inspiring 的公开 Notebook(例如来自 @salmanahmedtamu)以及往年的优秀解决方案。
恭喜所有顶尖团队——尤其是我的队友获得了 Grandmaster status!我真诚地感谢他在整个竞赛期间提供的宝贵支持。
我们的解决方案详情如下:
像许多参与者一样,我们使用了完整的 BirdCLEF 2025 数据集进行训练。然而,为了获得更稳定的 CV-LB(交叉验证 - 排行榜)结果,我们通过包含来自 BirdCLEF 2023 数据集的 102 个额外类别扩展了训练集。
具体来说,我们使用了 80% 的 BirdCLEF2023 数据 + 100% 的 BirdCLEF2025 数据进行训练,剩余的 20% BirdCLEF2023 数据用于验证。这一策略提供了模型收敛的粗略指示。虽然 CV-LB 的相关性仍然不是完全稳定,但与我们早期的尝试相比,一致性要高得多。
此外,我们从以下来源收集了额外数据:
我们还使用了一个公开 Notebook 清理了部分 CSA 数据集 以去除人声,并手动过滤了剩余样本以确保质量。
此外,我们的训练数据还包括带有伪标签的 train_soundscape 音频,这些伪标签是由基于上述数据集训练的模型集成生成的。
我们的最终系统结合了基于 CNN 和基于 SED 的模型,利用了以下骨干网络:
tf_efficientnet_b0_nstf_efficientnetv2_b3tf_efficientnetv2_s.in21k_ft_in1kmnasnet_100spnasnet_100我们使用了两组 Mel 频谱图,参数如下(两组之间唯一的区别在于 n_mels 参数,分别设置为 128 或 96):
mel_spec_params = {
"sample_rate": 32000,
"n_mels": 128 or 96,
"f_min": 0,
"f_max": 16000,
"n_fft": 2048,
"hop_length": 512,
"normalized": True,
"center": True,
"pad_mode": "constant",
"norm": "slaney",
"mel_scale": "htk",
}
我们应用了一种受以下灵感启发的排名感知后处理策略:
Post-processing with power adjustment
这有助于根据排名调整低置信度的预测。