返回列表

3rd place solution sharing: A Deep Mixture Model with Online Distillation

344. The 3rd YouTube-8M Video Understanding Challenge | youtube8m-2019

开始: 2019-06-27 结束: 2019-10-11 音视频处理 数据算法赛
第三名方案分享:带有在线蒸馏的深度混合模型

第三名方案分享:带有在线蒸馏的深度混合模型

作者: RLin
比赛排名: 第3名

首先,我要感谢 Google Research 提供了另一个有趣的视频理解挑战赛。在过去的4个月里,这个比赛真的给我的许多周末带来了乐趣。

总的来说,我的解决方案遵循了广泛使用的系统设计:候选生成和排序。

系统设计图

快速的离线分析表明,前20个主题(在1000个主题中)覆盖了超过97%的正标签。片段级分类器是直接从视频级分类器(具有相同结构)微调而来的。

我发现更大的模型通常在视频数据集上表现更好,但会很快在较小的片段数据集上过拟合。在这次比赛中,我尝试了另一种方法,即通过训练多个模型来增加模型容量。我们的最终模型是一个带有在线蒸馏的2层混合模型。每个 MixNeXtVLAD 模型是3个 NeXtVLAD 模型的混合。因此,我们总共使用4块 Nvidia 1080 TI GPU 并行训练了12个 NeXtVLAD 模型。在线蒸馏部分可以有效地防止整个模型在较小的数据集上过拟合。

模型结构图1 模型结构图2

关于模型的更多细节将包含在研究论文中,一旦我完成写作,就会在这篇文章中分享 : )

如果你对我尝试过的模型的性能感兴趣,以下是结果:

结果对比图

我使用了所有可用的数据进行训练,包括验证集,因为本地验证数据集上的表现与 Public LB(公开排行榜)高度一致。

同比赛其他方案