返回列表

6th place solution fastai

327. Freesound Audio Tagging 2019 | freesound-audio-tagging-2019

开始: 2019-04-04 结束: 2019-06-17 音视频处理 数据算法赛
第6名方案 fastai

第6名方案 fastai

作者:Miguel Pinto | 比赛排名:第6名

这是我的解决方案的文章和代码!

摘要

  • 模型:xresnets
  • 图像尺寸:256x256
  • Mixup:从均匀分布中采样
  • 水平与垂直翻转:作为新标签(共320个标签)
  • 损失计算:仅计算 F2 分数(阈值为 0.2)小于 1 的样本的损失
  • 噪声数据:约 3500 个“优质噪声样本”被像精选数据一样使用
  • TTA(测试时增强):在时间轴上每隔 128px 切片剪辑(无重叠),为每个切片生成预测,并计算每个类别的最大值(max
  • 最终提交:
    • 1) 2 个模型的平均值:Public LB 0.742,Private LB 0.74620
    • 2) 6 个模型的平均值:Public LB 0.742,Private LB 0.75421

额外观察

  • 我发现使用 128x128 的随机裁剪并缩放到 256x256 的效果,比使用 128x256 的随机裁剪并缩放到 256x256 更好,这与我预期的相反。
  • 我想知道为什么 max_zoom=1.5 会起作用;我原本没料到会这样。

致谢

感谢 @daisukelab 提供生成梅尔语谱图的代码!感谢所有在讨论或 Kernel 中做出贡献的人。最后,感谢主办方举办这场精彩的比赛!

同比赛其他方案