652. Image Matching Challenge 2025 | image-matching-challenge-2025
首先,我要向 2025 年图像匹配挑战赛的组织者表示诚挚的感谢,感谢你们举办了如此鼓舞人心且组织严谨的比赛。
我的方法围绕两阶段哲学设计:一个“宽松的第一阶段”试图不漏掉任何真阳性, followed by“后续阶段”修剪错误匹配。由于比赛的指标是聚类准确率和姿态准确率的调和平均数,牺牲任何一方都会大幅降低最终得分。因此,第一阶段必须保留尽可能多的潜在正确配对,而后续阶段必须抑制误差传播以实现高精度的 3D 重建。
在预处理和图像对生成中,使用预训练的 DINOv2 模型提取全局特征向量,并计算每对图像的余弦相似度。首先过滤掉相似度低于 0.15 阈值的配对,然后选择前 50 个最相似的配对。如果图像数量少于 100 张,自适应机制会切换为穷举匹配以提高计算效率。
随后 pipeline 执行多分辨率关键点检测和匹配,重新实现了 IMC 2024 第一名解决方案。在初始阶段,图像调整为 840 像素,并执行感知旋转的匹配。使用 ALIKED 检测器提取最多 1024 个关键点,LightGlue 寻找对应点,并补偿 0°、90°、180° 和 270° 的旋转。在第二阶段,分辨率提高到 1280 像素,检测最多 8192 个关键点,并应用更严格的 0.2 过滤阈值。第三阶段以 2048 像素处理图像以获得最精确的匹配。
匹配后,DBSCAN 聚类识别对应点的高密度区域。基于此分析,计算特征集中的矩形区域;这些成为裁剪区域,有效地限制后续高精度匹配的目标区域。在 1280 像素和 2048 像素下对这些区域进行详细分析,最后整合所有分辨率和区域的结果。在异常值移除和优化阶段,RANSAC 检测并消除不匹配的对应点,最终过滤器移除匹配分数低于阈值的配对,从而完成关键点检测和匹配过程。
Pipeline 生成的特征、匹配和基础矩阵被转换为 COLMAP 数据库并导入,为 3D 重建提供基础。增量式重建从匹配数量最多的配对开始。光束法平差在逐步添加新图像的同时持续优化模型,同时更新 3D 点云。在不同初始条件下尝试多次重建以找到最佳结果。检测并单独处理独立的场景聚类,并获得最终的相机姿态。聚类标签根据相机模型以直接的方式分配。
为了在 2x T4 GPU 上并行处理期间平衡负载,数据集被分为两组,使得图像数量的平方和几乎相等。纠正原始实现中有时发生的不平衡,在某些 pipeline 中将处理时间缩短了约 15%。
| 数据集 | 分数 | mAA | 聚类性 |
|---|---|---|---|
| imc2023_haiper | 68.08% | 73.33% | 63.53% |
| imc2023_heritage | 87.56% | 77.88% | 100.00% |
| imc2023_theather_imc2024_church | 68.24% | 51.79% | 100.00% |
| imc2024_dioscuri_baalshamin | 91.73% | 84.72% | 100.00% |
| imc2024_lizard_pond | 72.88% | 57.33% | 100.00% |
| pt_brandenburg_british_buckingham | 67.70% | 78.59% | 59.47% |
| pt_piazzasanmarco_grandplace | 87.40% | 77.62% | 100.00% |
| pt_sacrecoeur_trevi_tajmahal | 93.33% | 87.50% | 100.00% |
| pt_stpeters_stpauls | 61.35% | 79.38% | 50.00% |
| amy_gardens | 22.12% | 12.44% | 100.00% |
| fbk_vineyard | 42.37% | 39.77% | 45.32% |
| ETs | 64.94% | 48.08% | 100.00% |
| stairs | 0.00% | 0.00% | 71.43% |
| 所有数据集平均值 | 63.67% | 59.11% | 83.83% |
第一阶段过滤差异导致的分数。
| 方法 | 私有榜 | 公共榜 |
|---|---|---|
| DINOv2 (相似度 < 0.15, top-k = 50, 图像数 ≧ 100) | 44.69 | 41.08 |
| DINOv2 (相似度 < 0.3, top-k = 20, 图像数 ≧ 20) | 42.93 | 39.87 |
| 穷举匹配 | 41.74 | 36.37 |