5th place - Partial solution | 优胜方案

第5名 - 部分解决方案

作者： Miha Skalic | 比赛排名： 第5名

首先，我要感谢组织者举办了又一场有趣的比赛。我希望 Kaggle 团队也能做正确的事，清除排行榜上所有作弊者和违反规则的参赛者。

与 Mikel 和 David 一起应对这次挑战是一件非常愉快的事情。遗憾的是，我们缺乏时间深入研究细节并探索“异国情调”的解决方案。

在这里，我将描述解决方案的一部分，Anokas 将描述他的部分。我们最终对提交的结果进行了排名求和集成。

这里介绍的解决方案包含 3 个部分：

视频级网络 - P_V

这基本上是基于去年的第1名解决方案 - 链接。本质上，对于每个片段，我们将基于整个视频序列进行预测。

我们训练了三个模型：在第二年的数据序列上采样 5 帧，训练了 1个 DBoF 和 2个 VLAD 模型。然后我们在今年的带注释片段上对模型进行了微调。

该网络接收帧序列和目标标签作为输入。目标标签通过嵌入层传递，然后与帧序列拼接。拼接后的序列随后由 LSTM 处理，以预测每一帧是否预测了目标标签。未注释的帧将被屏蔽。

这种方法的缺点是我们需要运行 1000 次推理。每个目标标签运行 1 次。

概率相乘（加权几何平均）给出了最好的结果。

本质上，每个片段-类别组合的概率 p(fc) 计算如下：

p(fc) = Log (P_v) + 2/3 Log (P_5-VLAD1) + 2/3 Log (P_5-VLAD2) + 2/3 Log (P_5-DBoF) + Log(P_l(*|c))

接下来，我们只需根据 p(fc) 对片段进行排序，并针对每个类别 c 报告排名靠前的片段 f。

详细的解决方案将作为研讨会投稿提供。