返回列表

14th place solution

654. BirdCLEF+ 2025 | birdclef-2025

开始: 2025-03-10 结束: 2025-06-05 环境监测 数据算法赛
第 14 名解决方案
竞赛排名:第 14 名
作者:Yevhenii Maslov (evgeniimaslov2)
合作者:Kelvin (xyzdivergence)
发布时间:2025-06-06

第 14 名解决方案

首先,我们要感谢主办方和 Kaggle 组织本次竞赛。

恭喜 @xyzdivergence 达成 Kaggle 竞赛大师(Grandmaster)成就——实至名归!

模型与训练

我们使用了 SED(声音事件检测)架构,并在随机 10 秒音频片段上进行训练。对于最终集成,我们仅依赖 tf_efficientnetv2_m.in21k,并使用略微不同的配置进行训练。

单个 SED 模型的最佳私有分数为 0.922(非 selected 提交),而使用相同骨干网络的 CNN 模型得分为 0.894。

我们的训练 pipeline 包含几个阶段:

  • 阶段 1:使用真实标签在训练音频上进行预训练。
  • 阶段 2:使用训练音频和训练声景(soundscapes)进行知识蒸馏。我们结合了全音频的平均伪标签(1 秒步长,权重 0.3)和来自教师模型的片段级伪标签(10 秒片段,权重 0.7)。
  • 我们进行了几轮蒸馏,根据 leaderboard 的提升选择上一轮表现最好的教师模型。

特征

梅尔频谱图(Melspectrogram)设置:

sample_rate: 32000
mel_bins: 128
fmin: 40
fmax: 15000
nfft: 1024
hop_length: 512

数据增强:

在波形上:sumix (p=1)
在频谱图上:mixup (p=1), 3 个时间/频率掩码 (p=0.5), 水平翻转 (p=0.5), 随机擦除 (p=0.5)

最终提交

最终提交是三个 tf_efficientnetv2_m.in21k 检查点的简单平均,随后使用相邻片段进行平滑处理,权重分别为 0.1、0.8 和 0.1。

为了加快推理速度,所有模型都转换为 OpenVINO 格式。

同比赛其他方案