27th place key highlights in 60 seconds

第27名方案关键亮点速览

作者：Alexander Soare
比赛排名：第27名

架构 - 组合了以下模型：
- VIT 编码器配合 8 层 Transformer 解码器。我对于缺乏归纳偏置感到不安，所以我使用了 2 个 3x3 的卷积核作为 VIT 的输入适配器（是否有效尚无定论——我表示怀疑）。编辑：忘了提到重要的一点——第二个卷积核的步长为 2，从而允许我从比正常硬件限制允许的更大的输入图像中进行“智能”下采样。
- TNT 编码器配合 8 层 Transformer 解码器。
选择性补丁 - 使用了选择性补丁（感谢 @hengck23 的想法），确保只将相关的补丁输入编码器。这显著加快了训练速度。
椒盐噪声增强 - 椒盐噪声（尤其是胡椒噪声）增强大获全胜！请查看该团队的讨论。
RDKit 生成的图像 - 我认为这也起到了作用，因为它让我增加了训练词汇量。
@nofreewill 的归一化脚本，但增加了级联和一致性机制：
- 级联 = 如果 InChi 无效，则尝试下一个最佳模型的 InChi。巨大的提升！
- 一致性 = 如果顶级模型的 InChi 与第 2 名不同，且第 2 名 == 第 3 名 == 第 4 名，则使用后者。微小的提升。
正如 @fergusoci 所说——要有耐心，让模型多训练一会儿。
伪标签 - 训练了 2 个轮次——微小的提升。

无效尝试

有点浪费时间，我尝试将 Transformer 解码器拆分为两个 Transformer，一个用于化学式，另一个用于其余部分。灵感来源于该团队所做的噪声注入。可惜这个想法没有奏效。

GG（以此致敬）。