345. Kuzushiji Recognition | kuzushiji-recognition
感谢主办方和Kaggle提供了如此有趣的比赛,也祝贺所有享受这次挑战的选手!
我的方法是一个两阶段的流水线。我使用 CenterNet [1] 进行字符检测,使用 MobileNetV3 [2] 进行分类。我的方法概览如下图所示。所有模型都是在我家用服务器上安装的单块 GTX 970 GPU 上训练的,因此我的方案在资源利用上相对高效。
我选择 CenterNet 是因为其无锚框的设计非常简洁。Kuzushiji(变体假名)字符的长宽比范围很大,且相对于页面尺寸较小,因此似乎很难找到合适的锚框设置。
我结合了多种数据增强方法来提高准确率。(黑色网格线仅用于可视化)
其他常规的增强操作如颜色、亮度、对比度、旋转和噪声也有应用。训练时的实际输入图像如下所示。这些操作是通过 albumentations 库实现的。
正如讨论的那样,按书名进行分组划分非常重要。字符的外观随书籍的不同而有很大差异。我使用按书名划分的分组进行本地验证,以选择超参数、数据增强类型和测试时的阈值。我将检测器的分数阈值设为 0.3(<- 默认值 = 0.5)以减少假阴性预测,将分类器的分数阈值设为 0.5 以减少假阳性预测。