419. Rainforest Connection Species Audio Detection | rfcx-species-audio-detection
首先感谢 Kaggle 和主办方组织这次比赛。
我们(我和 @ks2019)最初是在参加木薯叶病分类比赛,但感谢 @cpmpml 的这篇帖子,它为我们指明了方向,让我们意识到需要尝试一些与当时公开方案不同的方法。经过仔细观察,我们发现了与他类似的规律。音频中某个物种 ID(specie_id)的频率-时间裁剪区域几乎是固定的(例如,对于 specie_id 23 —— 在大多数录音中,音频频率位于 6459 和 11628 之间,持续时间约为 16 秒)。这给了我们一个思路:从频谱图中裁剪出所有潜在区域,并对它们进行二分类。
我们的方法可以概括为:
注意:在第一次提交时,使用上述方法的单一模型就让我们在 Public LB 上获得了 0.921 的分数(Private LB 为 0.927),随后通过伪标签和少量的模型融合,Private LB 提升到了 0.948。
从每个频谱图中,针对每个 specie_id x songtype 组合,我们裁剪出图像序列,频率范围介于该 specie_id x songtype 观察到的最小和最大频率之间,然后创建持续时间为训练集中该 specie_id x songtype 音频持续最大时间间隔 2 倍的图像序列。
除了添加随机噪声外,我们还选取了同一 specie_id 的假阳性样本并将其添加到音频样本中。经过这种增强后,recording id x specie id 的标签保持不变(即假阴性仍然是假阴性,真阳性仍然是真阳性)。