344. The 3rd YouTube-8M Video Understanding Challenge | youtube8m-2019
首先,我要感谢组织者举办了又一场有趣的比赛。我希望 Kaggle 团队也能做正确的事,清除排行榜上所有作弊者和违反规则的参赛者。
与 Mikel 和 David 一起应对这次挑战是一件非常愉快的事情。遗憾的是,我们缺乏时间深入研究细节并探索“异国情调”的解决方案。
在这里,我将描述解决方案的一部分,Anokas 将描述他的部分。我们最终对提交的结果进行了排名求和集成。
这里介绍的解决方案包含 3 个部分:
这基本上是基于去年的第1名解决方案 - 链接。本质上,对于每个片段,我们将基于整个视频序列进行预测。
我们训练了三个模型:在第二年的数据序列上采样 5 帧,训练了 1个 DBoF 和 2个 VLAD 模型。然后我们在今年的带注释片段上对模型进行了微调。
该网络接收帧序列和目标标签作为输入。目标标签通过嵌入层传递,然后与帧序列拼接。拼接后的序列随后由 LSTM 处理,以预测每一帧是否预测了目标标签。未注释的帧将被屏蔽。
这种方法的缺点是我们需要运行 1000 次推理。每个目标标签运行 1 次。
概率相乘(加权几何平均)给出了最好的结果。
本质上,每个片段-类别组合的概率 p(fc) 计算如下:
p(fc) = Log (P_v) + 2/3 Log (P_5-VLAD1) + 2/3 Log (P_5-VLAD2) + 2/3 Log (P_5-DBoF) + Log(P_l(*|c))
接下来,我们只需根据 p(fc) 对片段进行排序,并针对每个类别 c 报告排名靠前的片段 f。
详细的解决方案将作为研讨会投稿提供。