38th Place - ZoneMix - A domain specific augmentation

第38名 - ZoneMix - 一种特定领域的增强方法

作者： Dipam Chakraborty (dipamc77) | 比赛： Bengali.AI Handwritten Grapheme Classification | 排名： 38th

非常感谢所有分享想法的出色参与者。@haqishen @hengck23 @bibek777 @machinelp @quandapro 以及许多其他优秀的用户，如果没有他们的建议，我会完全迷失方向。同时也要非常感谢 Bengali.AI 的组织者举办这场关于我母语的竞赛，从这次竞赛中学到的经验教训也将适用于印度次大陆的其他语言，如印地语、奥里亚语、泰卢固语等。

老实说，我在一月底才加入比赛，大部分时间我都在尝试通过简单的增强、模型或超参数调整来提高分数。而且只有 Google Colab 可用于训练对此也没有帮助。如果我继续那条路，我肯定不会进入任何奖牌区。非常感谢我的队友 Ram 指出了组织者关于“未见字形”的重要讨论。随后还有 Qishen Ha 关于在未见字形上进行验证的帖子。

在意识到模型在未见字形上的表现有多糟糕后，只剩下 10 天时间了。特别是——组合较少的类别（超过一半的字形根属于此类），以及辅音 3 和 6——泛化能力最差。（可以查看这里的组合计数内核）。

我使用这里描述的方法探测了其中一些类别的分数。从差距中，我确信会有巨大的排名变动。

在阅读了顶级解决方案后，我受到启发去追求基于机器学习的方法来提高泛化能力，而不是我在下面描述的基于规则的方法；我仍然想分享它。