611. Image Matching Challenge 2024 - Hexathlon | image-matching-challenge-2024
感谢 IMC 2024,这始终是一个有趣且良好的代码与思路测试和实验场所,可以与过去的方案进行基准对比!无论结果如何,所有比赛的共同点在于所获得的知识——宝贵的知识和见解。
首要的是,最重要的是,在过去三届 IMC 中阅读论文和代码,直至形成“解决方案层面的认知”,找到挑战、解决方案和最终总结,了解哪些有效,哪些无效。
从阅读过去主办方的比赛回顾可以看到,在各数据集结果中,Urban 数据集是最难找到解决方案的,其团队得分也与 IMC 2024 公开数据集得分相似,并且主办方还有一条评论“没有任何团队尝试处理这部分”——可以猜测主办方可能想让这种情况在本次出现。
总之,私有测试集是未知的,因此最好的做法是收集一个多样化的验证集,我使用了过去的比赛以及 IMC2020 PhotoTourism 数据集以及当前比赛的数据集来进行验证。
我从使用过去两届的冠军和亚军获奖代码开始,尝试并行开发并验证,以权衡风险、回报和工作量,最终提交。
下方是他们精彩的方案总结链接:
2023 比赛第一名方案 https://www.kaggle.com/competitions/image-matching-challenge-2023/discussion/427143 2023 比赛第二名方案 https://www.kaggle.com/competitions/image-matching-challenge-2023/discussion/417045在进行进一步测试之前,我首先修复了随机性。
通过验证,我发现混合不同图像尺寸以及使用 Harris 角点模型在验证集和排行榜上效果最好。最终获得较好综合分数的设置是:KeyNet 使用低图像尺寸,GFTT 与 DoG 使用中等尺寸,以及不同尺寸的 Harris 角点的混合,同时提高 RANSAC 阈值也有帮助。
许多未修复随机性的方案得分更高,但我无法保证(它们);)
我曾想实现来自另一方案的最近邻匹配,并且尝试使用 MatchFormer 和 QuadTreeAttention——这些代码来自我在 IMC 2022 的第21名方案,但由于时间不足,未能实现。
它使用了如 lightglue、netvlad 检索、pixsfm、旋转匹配等功能,以定位未注册的图像。详细信息见下方链接。
阅读过去顶尖方案的赛后测试和验证,我发现当更改默认设置时,那些数值是一个不错的起点。然而在通过验证检查进行调优后,我发现更高的 ALIKED 检测阈值和强制调整图像尺寸效果更好。
我还计划实现新发布的开源 SuperPoint,做到约 50% 的特征提取,但由于时间不足,未能完成最终的 sp‑lightglue 代码。
我尝试将上述方案组合,针对不同场景使用不同设置进行提交。由于不同验证场景的分数会有所变化,效果还不错,但由于私有场景未知,我不愿冒险。