37th place brief writeup

359. Peking University/Baidu - Autonomous Driving | pku-autonomous-driving

开始: 2019-10-22 结束: 2020-01-21 自动驾驶感知数据算法赛

第37名方案简述

第37名方案简述

作者： yama (Master) | 比赛排名： 37th

感谢主办方以及那些有用的Kernel和讨论。在这次比赛中我学到了很多。

我的代码基于 Center-Resnet Starter。我的Public LB分数是0.094，Private LB分数是0.086。

模型 (Model)

模型架构与Center-Resnet Starter Kernel基本相同，除了以下几点：
将掩码图像和x,y位置信息输入模型。
遵循CenterNet论文，使用Focal Loss预测热力图。
遵循CenterNet论文，将回归目标从改为。
回归 log(z) 而不是 z，因为深度的影响是乘法的，且 log(z) 的分布比 z 的分布更均衡。

数据增强 (Data Augumentation)

位置抖动。
轻微的高斯噪声。
轻微的随机对比度和亮度调整。

预处理 / 后处理 (Preprocessing / Post Processing)

使用给定的掩码进行预测掩码处理。
恢复颜色失真的测试图像。对于每张图像和每个通道，将 [0, '95百分位值'] 拉伸到 [0, 255]。
- 这对LB可能没有影响，正如这个讨论所指出的。

其他 (Others)

用Y位置替换置信度没有效果。在这一点上，我甚至怀疑了评估指标。
移除了5张损坏的训练图像。
尝试了自适应热力图阈值以确保每张图像至少预测出一辆车。但因为LB没有变化而放弃了。
增加了epochs并将调度器改为ReduceLROnPlateau。
给回归目标2倍权重以平衡两种损失。这提升了LB成绩。
将位置信息作为头部输入，并在头部添加两个1x1卷积。本地CV和Private LB更好（我的最终提交分数 + 0.002），但因为Public LB较差（我的最终提交分数 - 0.007）我放弃了它。

对我无效的尝试

更小的输入尺寸 (w,h = 1536,512)。
更大的输入尺寸 + 梯度累积 (accumlation_step=2)。
可变形卷积 V2 (Deformable convolution V2) (可能是因为我建模技巧不足)。
遵循CenterNet论文，针对pitch的bins内回归 (bins=4)。
遵循CenterNet论文，从相机视角预测pitch。

我本该尝试的

改进大型车辆的预测。以下内容可能相关：
第9名方案：针对不同位置的车辆使用不同的模型。
第5名方案：FPN网络。
模型集成。
其他骨干网络 (DLA34 或 resnet34 或 efficientnet-b0)。
更改单车距离阈值。
翻转增强。
使用预训练模型（并使用掩码信息进行损失计算）。

代码链接 https://github.com/lisosia/kaggle-pku-autonomous-driving

同比赛其他方案

1st place solution (1/26 details updated)

2nd Place solution

(part of) 5th place solution

7th place solution

9th Place Solution