模型 1：目标检测 (Object Detection)

我使用 mmdetection 制作了 Cascade-RCNN 模型。

相比去年的 YOLO 模型，57 个类别的 mAP 有了很大提升，提高了超过 0.1。

模型 2：视觉关系 (Visual Relationship)

我为这部分制作了 3 个模型，然后对它们进行了集成。

这是我去年用于 'is' 关系的模型。

我制作了一个检测 42 个 'is-relation' 类别的 Cascade-RCNN 模型。这个模型与去年 'toshif' 解释的几乎一样。

我在 Cascade-RCNN 中加入了 'material'（材质）检测头。这个模型同时预测边界框、类别和材质。

结果：

我原本预期 2-1-3 会有更好的分数……

这部分的基模型与我在这里分享的几乎相同。

我制作了专门负责小样本类别的专家模型，并通过概率的加权平均将它们集成。

这是验证数据集的 AP 结果：