第37名方案简述
第37名方案简述
作者: yama (Master) | 比赛排名: 37th
感谢主办方以及那些有用的Kernel和讨论。在这次比赛中我学到了很多。
我的代码基于 Center-Resnet Starter。我的Public LB分数是0.094,Private LB分数是0.086。
模型 (Model)
- 模型架构与Center-Resnet Starter Kernel基本相同,除了以下几点:
- 将掩码图像和x,y位置信息输入模型。
- 遵循CenterNet论文,使用Focal Loss预测热力图。
- 遵循CenterNet论文,将回归目标从改为。
- 回归 log(z) 而不是 z,因为深度的影响是乘法的,且 log(z) 的分布比 z 的分布更均衡。
数据增强 (Data Augumentation)
- 位置抖动。
- 轻微的高斯噪声。
- 轻微的随机对比度和亮度调整。
预处理 / 后处理 (Preprocessing / Post Processing)
- 使用给定的掩码进行预测掩码处理。
- 恢复颜色失真的测试图像。对于每张图像和每个通道,将 [0, '95百分位值'] 拉伸到 [0, 255]。
其他 (Others)
- 用Y位置替换置信度没有效果。在这一点上,我甚至怀疑了评估指标。
- 移除了5张损坏的训练图像。
- 尝试了自适应热力图阈值以确保每张图像至少预测出一辆车。但因为LB没有变化而放弃了。
- 增加了epochs并将调度器改为ReduceLROnPlateau。
- 给回归目标2倍权重以平衡两种损失。这提升了LB成绩。
- 将位置信息作为头部输入,并在头部添加两个1x1卷积。
本地CV和Private LB更好(我的最终提交分数 + 0.002),但因为Public LB较差(我的最终提交分数 - 0.007)我放弃了它。
对我无效的尝试
- 更小的输入尺寸 (w,h = 1536,512)。
- 更大的输入尺寸 + 梯度累积 (accumlation_step=2)。
- 可变形卷积 V2 (Deformable convolution V2) (可能是因为我建模技巧不足)。
- 遵循CenterNet论文,针对pitch的bins内回归 (bins=4)。
- 遵循CenterNet论文,从相机视角预测pitch。
我本该尝试的
- 改进大型车辆的预测。以下内容可能相关:
第9名方案:针对不同位置的车辆使用不同的模型。
第5名方案:FPN网络。
- 模型集成。
- 其他骨干网络 (DLA34 或 resnet34 或 efficientnet-b0)。
- 更改单车距离阈值。
- 翻转增强。
- 使用预训练模型(并使用掩码信息进行损失计算)。