495. Image Matching Challenge 2022 | image-matching-challenge-2022
感谢举办方提供的挑战!这是一次很棒的学习经历。
以下是我们得分最高方法的简短总结,以及一些见解和未解决的问题。
cv2.findFundamentalMat。在我们的实验中,"大"版本的 SE2-LoFTR 通常略优于 LoFTR,而"小"版本的表现则较差。"大"版本的缺点是比 LoFTR 慢,但出于性能原因我们仍然使用了它。在步骤2和3中使用两个不同的网络提高了鲁棒性,但也许重新训练的 LoFTR 版本可能是 SE2-LoFTR 的替代方案。静态物体(建筑物)的直立图像并不是 SE2-LoFTR 明显优于 LoFTR 的场景。不过,我还是想使用 SE2-LoFTR,因为这是我的方法。;)
大多数团队似乎通过在所有图像对上始终使用一组特定的方法来进行集成。我们在 PhotoTourism 数据集上观察到,当 LoFTR 找到许多匹配项时,得分通常非常好。因此,我们仅在 LoFTR 未能找到足够多匹配项时才使用其他方法,从而节省了计算资源。
直接应用 DKM 得到的分数比 LoFTR 差,可能是由于关键点定位较差(一些团队似乎通过更改 DKM 内部使用的图像大小解决了这个问题)。然而,DKM 的优势在于总是能产生任意数量且通常质量不错的匹配。使用 DKM 在图像中寻找 ROI 的想法类似于第10名的解决方案,如果深入研究 DKM 方法,这可能会得到很大的改进。
将输入图像放大到最长边为 1176 是优于基线 LoFTR 的最重要原因。由于 1/8 的粗尺度,使用可被 8 整除的尺寸对 LoFTR 非常重要。修改 LoFTR 以使用更精细的粗尺度并重新训练可能会效果很好。
在我们的实验中,cv2.USAC_MAGSAC 总是大大优于其他 OpenCV RANSAC 预设。原因尚不清楚。最后两天,我们尝试更改 MAGSAC 的参数(即局部优化样本数和局部优化迭代次数),这似乎在仅使用 LoFTR 的 PhotoTourism 数据上带来了改进,但在我们剩余的几次提交中,这并没有转化为测试集和完整方法的提升。
最后,我们可能错过的最重要的一点是使用 LoFTR 的 QuadTreeAttention 版本,例如第6、11和21名解决方案中所述。我们也没有使用 SuperPoint/SuperGlue,因为它处于半禁止状态。阅读其他解决方案,我们本可以做一些多线程技巧来完成更多计算,我们在尝试某些操作时经常遇到超时问题。