43rd place private LB solution

第43名私有排行榜解决方案

作者： Nicolo Bonettini (团队成员: Luca Bondi, Paolo Bestagini, Sara Mandelli, Edoardo Daniele Cannas)
团队： Image and Sound Processing Lab (ISPL), Politecnico di Milano
排名： 第43名 (私有排行榜)

以下是我们获得私有排行榜第43名的解决方案简介！核心思想描述在我们的论文《Video Face Manipulation Detection Through Ensemble of CNNs》中。

模型

我们从 EfficientNetB4 开始，对其进行了微调，在其卷积块链的中间添加了注意力机制。我们将其称为 EfficientNetB4Att。

训练

我们采用了两种不同的训练范式：端到端训练和使用三元组损失的孪生网络训练，两者都将帧视为样本。

然后，我们基于文件夹的5折交叉验证策略为每个模型训练了5个实例。对于每一折，我们选择40个连续文件夹进行训练，剩余的10个用于验证。各折之间没有重叠。通过这种方式，我们最终得到了10个模型，其中5个以端到端方式训练，5个以孪生网络方式训练。

在训练期间，我们只考虑包含一张人脸的帧，保留由 Blazeface 检测到的最佳人脸。作为数据增强，我们使用了加性噪声、饱和度变化、亮度变化、缩小和 JPEG 压缩。我们使用 Adam 优化器进行了最多 20k 次迭代的训练。

推理

在推理时，我们考虑每个视频的 72 帧，并查看 Blazeface 发现的所有人脸，只保留得分高于特定阈值的人脸。如果一个帧有多个得分高于阈值的人脸，但得分不一致，我们取其中的最大值。其基本原理是，如果我们有多张人脸，而只有一张人脸是假的，我们希望将该帧归类为假。然后，我们对所有网络的得分、视频中所有帧的得分进行平均，并计算 sigmoid 函数。

这是一段美妙的旅程！非常感谢米兰理工大学图像与声音处理实验室 (ISPL) 的所有队友。

第43名私有排行榜解决方案

模型

训练

推理

相关链接

同比赛其他方案