返回列表

5th place - Partial solution

344. The 3rd YouTube-8M Video Understanding Challenge | youtube8m-2019

开始: 2019-06-27 结束: 2019-10-11 音视频处理 数据算法赛
第5名 - 部分解决方案

第5名 - 部分解决方案

作者: Miha Skalic | 比赛排名: 第5名

首先,我要感谢组织者举办了又一场有趣的比赛。我希望 Kaggle 团队也能做正确的事,清除排行榜上所有作弊者和违反规则的参赛者。

与 Mikel 和 David 一起应对这次挑战是一件非常愉快的事情。遗憾的是,我们缺乏时间深入研究细节并探索“异国情调”的解决方案。

在这里,我将描述解决方案的一部分,Anokas 将描述他的部分。我们最终对提交的结果进行了排名求和集成。

这里介绍的解决方案包含 3 个部分:

  • 视频级网络
  • 5帧网络 (5 Frame network)
  • 定位网络

视频级网络 - P_V

这基本上是基于去年的第1名解决方案 - 链接。本质上,对于每个片段,我们将基于整个视频序列进行预测。

5帧网络 - P_5

我们训练了三个模型:在第二年的数据序列上采样 5 帧,训练了 1个 DBoF 和 2个 VLAD 模型。然后我们在今年的带注释片段上对模型进行了微调。

定位网络 – P_L

该网络接收帧序列和目标标签作为输入。目标标签通过嵌入层传递,然后与帧序列拼接。拼接后的序列随后由 LSTM 处理,以预测每一帧是否预测了目标标签。未注释的帧将被屏蔽。

这种方法的缺点是我们需要运行 1000 次推理。每个目标标签运行 1 次。

结合 3 个模型

概率相乘(加权几何平均)给出了最好的结果。

本质上,每个片段-类别组合的概率 p(fc) 计算如下:

p(fc) = Log (P_v) + 2/3 Log (P_5-VLAD1) + 2/3 Log (P_5-VLAD2) + 2/3 Log (P_5-DBoF) + Log(P_l(*|c))

接下来,我们只需根据 p(fc) 对片段进行排序,并针对每个类别 c 报告排名靠前的片段 f。

详细的解决方案将作为研讨会投稿提供。

同比赛其他方案