399. Cornell Birdcall Identification | birdsong-recognition
我要感谢主办方提供这个独特的挑战。祝贺我的队友 @canalici 以及所有的参赛者。这确实是一场在音频领域非常有教育意义的比赛。非常感谢 @hidehisaarai1213 在比赛中的指导,感谢 @doanquanvietnamca 提供的 GRU-SED,以及 Dmytro Karabash 提供的想法。
模型在原始数据集和扩展数据集上均进行了训练。增强方法应用于波形和梅尔频谱图两个层面。
我修改了 SED 模型(PANN’s),将其低效的主干网络替换为 Noisy-Efficientnet,并进一步尝试了 GRU、LSTM 和 Transformer 进行时序建模。我们的最终模型包含 CNN 主干网络 -> GRU 层 -> 注意力层。
为了集成不同的解决方案,我去除了每个模型的注意力层,保留了提取部分的预训练权重,并根据上述3个不同模型提取的特征重新训练了一个注意力层。
为了验证,我们将无叫声片段手工标注到 gt_birdclef2020_validation_data 中,并排除了不相关的物种,这提供了一个在真实环境中测试算法的机会。
预训练模型在许多知识迁移任务中被证明是很有优势的。避免分类器过拟合是非常困难的,特别是在这次比赛中,我们有少量音频片段的标签噪声很大。Hidehisa Arai 针对这个问题指出了 PANN’s(音频领域最大的预训练模型之一),但它们的 CNN 主干网络比轻量级替代方案效果要弱一些。我们使用了一个强大的 CNN 主干网络来克服这个问题,该网络在大规模图像语料库上进行了预训练(Noisy Student, Efficientnet)。然而,从著名的文本转语音、语音对话算法(如 Tacotron, Glow TTS...)中提取梅尔频谱编码器/解码器部分是可能的,因为它们是在相对更大的语料库上训练的。适应音频领域成功的预训练模型,用我们所有的鸟类数据进行微调,然后应用 noisy-student 训练方案,可能会是有益的。