442. Bristol-Myers Squibb – Molecular Translation | bms-molecular-translation
首先,我要感谢竞赛主办方和所有参与者的辛勤工作。这次竞赛非常有挑战性,我学到了很多东西。
我还要感谢我的队友 @lyakaap 和 @bamps53。我深信如果没有他们,我无法取得这样的成绩。
在这里,我将尝试总结我们方案的一些要点。
我们的方案包含三个阶段:

这次竞赛的一个重要方面是训练数据和测试数据之间的趋势差异。起初,我在交叉验证(CV)和公开排行榜(LB)之间的差异上遇到了困难,但后来我们注意到测试数据中含有更多的椒盐噪声。因此,我们通过在训练期间添加椒盐噪声增强来解决 CV 和 LB 之间的差距。

在第三阶段,通过多个模型估算图像和 InChI 候选对的似然度,并将似然度最高的 InChI 候选作为最终输出。因此,在这一阶段,有必要生成各种高质量的 InChI 候选。
我们通过使用如下所示的各种模型以及束搜索生成了多种 InChI 候选:
我们方案的关键部分之一是重排序。实际上,大多数单模型的结果都在 LB 0.9~0.8 左右,但通过使用下面显示的逻辑对多个模型的生成结果进行重排序,我们能够达到最终结果(LB 0.54)。
rdkit.Chem.MolFromInchi 函数验证每个 InChI 候选的有效性。(is_valid)extra_approved_InChIs.csv 进行 MLM 预训练