第 14 名解决方案

首先，我们要感谢主办方和 Kaggle 组织本次竞赛。

恭喜 @xyzdivergence 达成 Kaggle 竞赛大师（Grandmaster）成就——实至名归！

我们使用了 SED（声音事件检测）架构，并在随机 10 秒音频片段上进行训练。对于最终集成，我们仅依赖 tf_efficientnetv2_m.in21k，并使用略微不同的配置进行训练。

单个 SED 模型的最佳私有分数为 0.922（非 selected 提交），而使用相同骨干网络的 CNN 模型得分为 0.894。

我们的训练 pipeline 包含几个阶段：

阶段 1：使用真实标签在训练音频上进行预训练。
阶段 2：使用训练音频和训练声景（soundscapes）进行知识蒸馏。我们结合了全音频的平均伪标签（1 秒步长，权重 0.3）和来自教师模型的片段级伪标签（10 秒片段，权重 0.7）。
我们进行了几轮蒸馏，根据 leaderboard 的提升选择上一轮表现最好的教师模型。

梅尔频谱图（Melspectrogram）设置：

sample_rate: 32000
mel_bins: 128
fmin: 40
fmax: 15000
nfft: 1024
hop_length: 512

数据增强：

在波形上：sumix (p=1)
在频谱图上：mixup (p=1), 3 个时间/频率掩码 (p=0.5), 水平翻转 (p=0.5), 随机擦除 (p=0.5)

最终提交是三个 tf_efficientnetv2_m.in21k 检查点的简单平均，随后使用相邻片段进行平滑处理，权重分别为 0.1、0.8 和 0.1。

为了加快推理速度，所有模型都转换为 OpenVINO 格式。

作者主页 Yevhenii Maslov (Grandmaster) 查看主页

合作者主页 Kelvin (Grandmaster) 查看主页

14th place solution