6th place solution fastai

327. Freesound Audio Tagging 2019 | freesound-audio-tagging-2019

开始: 2019-04-04 结束: 2019-06-17 音视频处理数据算法赛

第6名方案 fastai

第6名方案 fastai

作者：Miguel Pinto | 比赛排名：第6名

这是我的解决方案的文章和代码！

博客文章 https://link.medium.com/Kv5kyHjcIX 代码 https://github.com/mnpinto/audiotagging2019

摘要

模型：xresnets
图像尺寸：256x256
Mixup：从均匀分布中采样
水平与垂直翻转：作为新标签（共320个标签）
损失计算：仅计算 F2 分数（阈值为 0.2）小于 1 的样本的损失
噪声数据：约 3500 个“优质噪声样本”被像精选数据一样使用
TTA（测试时增强）：在时间轴上每隔 128px 切片剪辑（无重叠），为每个切片生成预测，并计算每个类别的最大值（max）
最终提交：
- 1) 2 个模型的平均值：Public LB 0.742，Private LB 0.74620
- 2) 6 个模型的平均值：Public LB 0.742，Private LB 0.75421

额外观察

我发现使用 128x128 的随机裁剪并缩放到 256x256 的效果，比使用 128x256 的随机裁剪并缩放到 256x256 更好，这与我预期的相反。
我想知道为什么 max_zoom=1.5 会起作用；我原本没料到会这样。

致谢

感谢 @daisukelab 提供生成梅尔语谱图的代码！感谢所有在讨论或 Kernel 中做出贡献的人。最后，感谢主办方举办这场精彩的比赛！

同比赛其他方案

1st place solution released on a Github

4th solution: Multitask Learning, Semi-supervised Learning and Ensemble

7th place solution with commentary kernel

9th place solution: smaller and faster

13th place solution [public LB] - brief summary