344. The 3rd YouTube-8M Video Understanding Challenge | youtube8m-2019
感谢主办方举办这次比赛!祝贺所有顶尖团队!希望大家享受这次挑战!🎉🎉 🎉 我和 @daokouer 在探索这个有趣话题的过程中度过了一段美好的时光。
在这里,我们将简要介绍我们针对本次挑战的解决方案。对于这个时序定位问题,我们将其视为视频片段分类问题。我们基于带有或不带有上下文信息的视频片段特征训练了模型,并对每个片段进行了预测。
我们训练了两类模型:序列模型和帧级模型。这两类模型根据输入的不同部分做出决策。
我们使用了 Transformer 和 BiGRU 作为我们的序列模型。整个视频特征作为输入,每五帧进行一次预测。对于序列模型,我们认为它们侧重于长期的时序依赖关系。
NeXtVLAD 被用作帧级模型。帧级模型以精确的五帧作为输入,输出一个预测结果。我们相信,由于感受野有限,NeXtVLAD 更多地关注片段的静态特征。
上述模型有大量的参数需要学习,但我们只有少量的片段级标签。因此,我们希望利用带有视频标签的海量训练数据。我们使用类似 EM(期望最大化)的过程来利用训练集。我们使用与官方基线代码中训练过程相同的方法初始化模型 f。在 E 步中,我们使用模型 f 估计训练集的片段标签。在 M 步中,我们使用生成的标签训练新模型 f,并在片段标签上进行微调。我们在实验中进行了两次 EM 迭代。
我们也尝试了几种多示例学习(MIL)方法来利用视频标签,例如我们对片段预测进行最大池化并将其作为视频预测来计算损失等。但我们没有找到一种优于类 EM 方法的 MIL 方法。
请参阅研讨会提交材料以获取详细的解决方案。