13th place solution summary

第13名方案总结

作者： Appian (Master) | 比赛： Open Images 2019 - Visual Relationship Track

大家好。祝贺获奖者，也感谢 Google AI 今年再次主办这场有趣的比赛。

像往年的大多数方案一样，我将问题分为两部分：非is关系（non-is）和 is关系，因为它们具有截然不同的特征。

对于这项任务，我专注于两个对象之间的关系，例如 Man on Chair（男人在椅子上）、Cat under Table（猫在桌子下）。我的方法分两步走：检测对象，然后找出每个可能的三元组的关系。

目标检测

共有 57 个对象（如 Man、Oven）作为三元组的一部分。我使用了来自 mmdet 的 cascade-rcnn 来处理这 57 个类别，并做了一些修改，例如添加测试时增强。

这是我输入给 mmdet 的 .conf 文件。与默认参数相比，值得注意的变化有：

我对频繁出现的类别（如 Man, Woman, Chair）进行了欠采样，并且只使用了 150,000 张图片来缩短训练时间，但这牺牲了一定的准确率。

三元组关系

共有 287 种三元组关系。我采用了与去年 anokas 的方案类似的方法，因为它非常简单且易于实现。

我做的一些改动是：

平均 AUC 为 0.9641。将合并的类别分离回原始类别后，平均 AUC 为 0.9623。

提交结果

目标检测

我使用 cascade-rcnn 直接检测具有属性的对象，例如 Table Wooden（木制桌子）、Bench Plastic（塑料长椅）。此任务共有 42 个类别。这种方法与去年 toshif 的方案类似，但我没能把模型做得像他那样好。

提交结果

我只是把它们放在了一起。

使用完整的图像尺寸。
使用全部数据集。
使用外部数据集（如 COCO, Objects365，如果有帮助的话）。
像去年 tito 的方案那样，为三元组关系训练 CNN 模型。有些三元组关系（如 Man holds Violin 男人拿小提琴 vs Man plays Violin 男人拉小提琴）很难区分，因为简单的特征（如 IoU, IoF）无法真正捕捉到差异，但 CNN 可以做到。

感谢阅读！

第13名方案总结