344. The 3rd YouTube-8M Video Understanding Challenge | youtube8m-2019
我将首先概述我们的方法,然后详细解释每个组件。首先,我们将模型分为视频模型和片段模型。视频模型的工作是提出可能包含正确标记片段的合理视频。片段模型用于对视频模型提出的片段进行重新排序。对于这两个模型,我们决定测量 mAP(平均精度均值)、平均正例召回率和平均负例召回率。平均正例召回率定义为在前 10 万个检索结果中检索到的正例片段数量除以正例片段总数。平均负例召回率的定义同理。
.jpg?generation=1571178611116954&alt=media)
如上图所示,蓝色矩形表示常规模型。红色矩形表示使用其他模型训练的元模型。紫色区域内的模型仅使用 YouTube-8M v2 数据集进行训练。黄色区域内的模型可能同时使用 v2 和 v3 数据集或仅使用 v3 数据集进行训练。绿色方块显示公开排行榜的 mAP。橙色方块包围由视频模型生成的候选。最终提交的是经过过滤过程后所有 v3 模型的平均融合结果。
由于视频模型用于提出潜在的解决方案,我们对视频模型测量的唯一指标是正例召回率。我们决定使用去年第一名的模型 (Skalic et al. 2018) 作为我们的视频模型,因为其具有很高的正例召回率 (99.7%)。为了生成候选,我们预测最可能包含正例片段的前 10 万个视频,然后将这些视频分解为片段以形成候选池。
片段模型用于对视频模型提出的片段进行重新排序。因此,我们在视频模型提出的 10 万个片段范围内测量其 mAP。
以下是我们使用的片段模型:
| 模型 | 公开排行榜分数 |
|---|---|
| segment LSTM | 81.3 |
| group LSTM | 80.8 |
| NetVLAD_LF | 81.2 |
| netFV_LF | 81.0 |
| NetVLAD_RI_LF | 80.6 |
| transformer | 79.1 |
| transformer_AG | 80.9 |
| ConvS1_RI | 81.3 |
| Conv_LF_RI | 80.8 |
| AttConv_RI | 81.2 |
| ConvS1 | 81.4 |
| CCRL XGB | 81.3 |
| CCRL XGB2 | 80.8 |
| CCRL XGB3 | 80.9 |
在上表中,RI 表示模型是随机初始化的,而不是先在 YouTube-8m v2 数据上进行训练。LF 表示后期融合。AG 表示该模型是多次随机初始化运行的平均值。有关这些模型的更多信息将在研讨会论文中展示。
对于我们的最终提交,我们首先平均上述模型的所有分数预测。在分数平均之后,我们执行过滤过程以平滑预测。过滤的思想是利用相邻片段的预测来进行当前片段的预测。我们使用的过滤器是一个大小为 3 的内核,每个维度的值为 1。我们在时间维度上应用该过滤器,并在其上使用非递减函数。
| 方法 | 公开排行榜分数 |
|---|---|
| 平均预测 | 84.3 |
| 平均预测 + 过滤 | 84.4 |
我们提出了许多高性能的片段模型和一个以类别为输入的新型学习框架,称为 CCRL。模型的更多细节将在研讨会论文中介绍,TensorFlow 2.0 代码即将发布!