5th place solution

非常感谢Kaggle和Benetech举办这场有趣的竞赛，这里可以使用多种不同的方法，创意无穷无尽。考虑到私有测试集中存在强烈的分布偏移，我们对最终的成绩感到相当满意。

摘要

我们的解决方案包含三个主要组成部分：

早期我们就意识到这场竞赛的独特之处：我们不受限于现有数据集。如果模型在处理某些图表模式时遇到困难，我们可以生成大量具有这些模式的图表，而matcha模型非常强大，能够从中学习。

我们开始基于这个出色的仓库进行开发：https://github.com/rakutentech/chart-synthesizer。我们使用竞赛提取的数据和ICDAR数据作为验证，并尝试模拟其中的各种模式。例如：

我们生成数据的一些示例：
生成的线图示例
生成的条形图示例

在每一轮训练中，我们都会分析验证集，找出得分较低的模式，并将这些模式添加到图表生成代码中。通过重复这一过程，我们的公共排行榜得分从0.74提升到了0.82。

借助我们的生成代码，可以为每个训练阶段创建所需数量的条形图、线图和散点图。对于点图，我们从@brendanartley提供的优秀数据集中采样了10,000张图像。

感谢@nbroad的慷慨分享，我们使用`matcha-base`模型参赛并迅速取得了不错的成绩。

训练分为三个阶段：

从`matcha-base`检查点开始，将模型作为图表分类器进行训练。该模型训练5个epoch，使用少量合成数据并对提取的数据进行过采样
使用第一阶段的权重，继续训练10个epoch以从所有图表类型中提取数据序列。在此步骤中，我们添加了大量自行生成的合成数据（约150,000张图像）与原始数据集结合
使用第二阶段的权重，针对每个图表类型组分别微调模型5个epoch：
- 垂直条形图/点图（添加50,000张合成垂直条形图、5,000张直方图、5,000张点图）
- 水平条形图（添加50,000张合成图）
- 线图（添加200,000张合成图）
- 散点图（添加30,000张合成图）

在推理时，首先运行图表分类器，然后每组图表将由各自的专用模型处理。

最初我们的流程只有第2步和第3步，并使用第2步的模型作为分类器。但后来我们观察到，添加大量合成数据会降低分类任务的性能。因此，我们将分类器的训练单独分离出来。

也可以使用简单的CNN进行分类任务，但从早期实验来看，使用matcha能获得略好的性能，因此我们坚持使用它。

虽然上述方法帮助我们在线图、点图和条形图中取得了良好效果，但我们发现散点图对matcha来说更难处理。因此，我们为散点图开发了独立的方案：

这一流程帮助我们在散点图的公共榜上获得0.09分，私有榜上获得0.28分，这也是我们能够在私有测试集中存活的关键。

感谢您的阅读，如有任何问题请随时联系我们。