第13名解决方案 - 图表可访问性竞赛
第13名解决方案
Liam Nguyen
Kaggle MASTER
竞赛排名:第13名
发布时间:2023年6月20日
1. 概述
图表类型分类 + 绘图边界框预测 -> OCR识别 -> 图表数据实例检测/分割(线图)-> 数据关联
2. 模块详解
a. 图表类型分类 + 绘图边界框预测
- 使用PyTorch实现的Unet分割模型,骨干网络为eca nfnet l1,带有辅助分类头。通过二值分割预测绘图边界框,使用softmax分类进行图表类型识别
- 集成3折交叉验证模型
训练代码链接
b. OCR文字识别
- 基于Paddle ppOCRv3框架
- 文本检测:在竞赛数据上微调轻量级mobilenetv3-dbnet模型,以词组级别为检测目标(JSON文件已提供真实标注)
- 文本识别:使用预训练模型
- 逻辑优化:
- 修复Paddle TextDet后处理问题:当生成的多边形只有3个点(三角形)时,改用最小外接旋转矩形
- 解决透视变换后的文本旋转问题:进行两次预测(无旋转和顺时针旋转90度),选择置信度更高的结果
c. 图表数据检测
- 柱状图/散点图/点图检测:Mask RCNN Resnet50模型
训练代码链接
- 线图检测:Unet++模型,骨干网络为efficientnet b5
训练代码链接
d. 数据关联
- 基于规则逻辑将图表数据(柱状、散点、点图)与对应坐标轴刻度关联
- 将刻度和图表数据的像素坐标投影到轴相对尺度空间
未来可优化方向
由于时间限制未能尝试的改进:使用外部数据集、测试更多实例分割/目标检测模型、引入生成模型