23rd place solution

第23名解决方案

作者： First Derivative
比赛排名： 23

感谢举办方提供的挑战！这是一次很棒的学习经历。
以下是我们得分最高方法的简短总结，以及一些见解和未解决的问题。

放大图像。
使用 LoFTR。
如果匹配数 < 2000，使用 SE2-LoFTR，但将两张图像顺序颠倒，并将找到的匹配项添加到之前的匹配中。
如果匹配数仍 < 2000，使用 DKM 在图像中寻找感兴趣区域（ROI），步骤如下：
1. 采样 500 个 DKM 匹配。
2. 使用 DBSCAN 对 DKM 对应点（作为4D点）进行聚类，并在两张图像中裁剪出不同的聚类区域。
3. 对每对裁剪（并调整大小）后的图像对运行 SE2-LoFTR，并将找到的匹配项添加到之前的匹配中。
缩小关键点以补偿步骤1中的放大。
运行 cv2.findFundamentalMat。

SE2-LoFTR

在我们的实验中，"大"版本的 SE2-LoFTR 通常略优于 LoFTR，而"小"版本的表现则较差。"大"版本的缺点是比 LoFTR 慢，但出于性能原因我们仍然使用了它。在步骤2和3中使用两个不同的网络提高了鲁棒性，但也许重新训练的 LoFTR 版本可能是 SE2-LoFTR 的替代方案。静态物体（建筑物）的直立图像并不是 SE2-LoFTR 明显优于 LoFTR 的场景。不过，我还是想使用 SE2-LoFTR，因为这是我的方法。;)

自适应集成选择

大多数团队似乎通过在所有图像对上始终使用一组特定的方法来进行集成。我们在 PhotoTourism 数据集上观察到，当 LoFTR 找到许多匹配项时，得分通常非常好。因此，我们仅在 LoFTR 未能找到足够多匹配项时才使用其他方法，从而节省了计算资源。

DKM

直接应用 DKM 得到的分数比 LoFTR 差，可能是由于关键点定位较差（一些团队似乎通过更改 DKM 内部使用的图像大小解决了这个问题）。然而，DKM 的优势在于总是能产生任意数量且通常质量不错的匹配。使用 DKM 在图像中寻找 ROI 的想法类似于第10名的解决方案，如果深入研究 DKM 方法，这可能会得到很大的改进。

图像缩放

将输入图像放大到最长边为 1176 是优于基线 LoFTR 的最重要原因。由于 1/8 的粗尺度，使用可被 8 整除的尺寸对 LoFTR 非常重要。修改 LoFTR 以使用更精细的粗尺度并重新训练可能会效果很好。

RANSAC 版本

在我们的实验中，cv2.USAC_MAGSAC 总是大大优于其他 OpenCV RANSAC 预设。原因尚不清楚。最后两天，我们尝试更改 MAGSAC 的参数（即局部优化样本数和局部优化迭代次数），这似乎在仅使用 LoFTR 的 PhotoTourism 数据上带来了改进，但在我们剩余的几次提交中，这并没有转化为测试集和完整方法的提升。

最后，我们可能错过的最重要的一点是使用 LoFTR 的 QuadTreeAttention 版本，例如第6、11和21名解决方案中所述。我们也没有使用 SuperPoint/SuperGlue，因为它处于半禁止状态。阅读其他解决方案，我们本可以做一些多线程技巧来完成更多计算，我们在尝试某些操作时经常遇到超时问题。

第23名解决方案

SE2-LoFTR

自适应集成选择

DKM

图像缩放

RANSAC 版本

同比赛其他方案