654. BirdCLEF+ 2025 | birdclef-2025
首先,我们要感谢主办方和 Kaggle 组织本次竞赛。
恭喜 @xyzdivergence 达成 Kaggle 竞赛大师(Grandmaster)成就——实至名归!
我们使用了 SED(声音事件检测)架构,并在随机 10 秒音频片段上进行训练。对于最终集成,我们仅依赖 tf_efficientnetv2_m.in21k,并使用略微不同的配置进行训练。
单个 SED 模型的最佳私有分数为 0.922(非 selected 提交),而使用相同骨干网络的 CNN 模型得分为 0.894。
我们的训练 pipeline 包含几个阶段:
梅尔频谱图(Melspectrogram)设置:
sample_rate: 32000
mel_bins: 128
fmin: 40
fmax: 15000
nfft: 1024
hop_length: 512
数据增强:
在波形上:sumix (p=1)
在频谱图上:mixup (p=1), 3 个时间/频率掩码 (p=0.5), 水平翻转 (p=0.5), 随机擦除 (p=0.5)
最终提交是三个 tf_efficientnetv2_m.in21k 检查点的简单平均,随后使用相邻片段进行平滑处理,权重分别为 0.1、0.8 和 0.1。
为了加快推理速度,所有模型都转换为 OpenVINO 格式。