13th place solution [public LB] - brief summary

327. Freesound Audio Tagging 2019 | freesound-audio-tagging-2019

开始: 2019-04-04 结束: 2019-06-17 音视频处理数据算法赛

第13名解决方案 [公开LB] - 简要总结

第13名解决方案 [公开LB] - 简要总结

作者：wqk (sailorwei) | 比赛：Freesound Audio Tagging 2019

这是第二次参加 Freesound 音频标记比赛，感谢主办方组织了这场有趣且贴近现实的音频竞赛。感谢 @daisukelab、@mhiro2、@ceshine、@jihangz 以及许多 Kaggle 参与者提供的入门内核和讨论。

最终提交结果

在精选数据集上，5折交叉验证，Inception V3，单模型 LB 为 0.691，5模型平均为 0.713；
在精选数据集和噪声数据集上，使用特定的损失函数，5折交叉验证，8层 CNN，5模型平均为 0.678；
这两个模型的几何平均，得分为 0.73+。

我们尝试过的技术

PCEN 频谱图：没有尝试很多参数，不确定它是否适用于本次比赛；
Mixup：LB 提升了约 0.01；
SpecAugment：没有显示出提升，而 RandomResizedCrop 虽然在音频上难以解释，但带来了更好的 LB 提升；
CV 和 TTA：主要单模型提升了约 0.05；
Mixmatch：使用相同的模型得到了低得多的 LB，需要检查代码；
学习率调度：CyclicLR 和 CosineAnnealing 没有显示出太大差异。

其他心得

虽然很多 Kaggle 参与者说浅层 CNN 效果很好，但我们没有获得有效的浅层 CNN。我们曾尝试 AlexNet 或 VGG，但本地 lwlrap 都很低 :(
起初使用了不同的 CNN，但没有为最终的模型集成保存好它们；
带有噪声标签的数据集利用得不好。我们只是使用了加权损失函数将噪声标签数据与精选数据集一起训练。我们针对该任务实现的 Mixmatch 可能在细节上有误，需要检查。

相关链接

早期单模型内核 (无CV) https://www.kaggle.com/sailorwei/fat2019-2d-cnn-with-mixup-lb-0-673 单模型 LB 讨论 https://www.kaggle.com/c/freesound-audio-tagging-2019/discussion/91881#latest-547036 GitHub 代码仓库 https://github.com/sailor88128/dcase2019-task2

同比赛其他方案

1st place solution released on a Github

4th solution: Multitask Learning, Semi-supervised Learning and Ensemble

6th place solution fastai

7th place solution with commentary kernel

9th place solution: smaller and faster