374. Deepfake Detection Challenge | deepfake-detection-challenge
以下是我们获得私有排行榜第43名的解决方案简介!核心思想描述在我们的论文《Video Face Manipulation Detection Through Ensemble of CNNs》中。
我们从 EfficientNetB4 开始,对其进行了微调,在其卷积块链的中间添加了注意力机制。我们将其称为 EfficientNetB4Att。
我们采用了两种不同的训练范式:端到端训练和使用三元组损失的孪生网络训练,两者都将帧视为样本。
然后,我们基于文件夹的5折交叉验证策略为每个模型训练了5个实例。对于每一折,我们选择40个连续文件夹进行训练,剩余的10个用于验证。各折之间没有重叠。通过这种方式,我们最终得到了10个模型,其中5个以端到端方式训练,5个以孪生网络方式训练。
在训练期间,我们只考虑包含一张人脸的帧,保留由 Blazeface 检测到的最佳人脸。作为数据增强,我们使用了加性噪声、饱和度变化、亮度变化、缩小和 JPEG 压缩。我们使用 Adam 优化器进行了最多 20k 次迭代的训练。
在推理时,我们考虑每个视频的 72 帧,并查看 Blazeface 发现的所有人脸,只保留得分高于特定阈值的人脸。如果一个帧有多个得分高于阈值的人脸,但得分不一致,我们取其中的最大值。其基本原理是,如果我们有多张人脸,而只有一张人脸是假的,我们希望将该帧归类为假。然后,我们对所有网络的得分、视频中所有帧的得分进行平均,并计算 sigmoid 函数。
这是一段美妙的旅程!非常感谢米兰理工大学 图像与声音处理实验室 (ISPL) 的所有队友。