475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating
这个想法大致借鉴了 ColBERT 论文中的后期交互机制。
手头的任务是根据毒性程度对 14,000 条评论进行排名。这类似于谷歌的搜索排名,模型必须根据查询快速对数百万个搜索结果进行排序。为了找到有用的方法,我开始阅读有关搜索排名的论文。这就是我接触到交叉编码器、双编码器 和后期交互机制的地方。
我之前曾发过一篇关于 交叉编码器与双编码器 的帖子。后期交互机制可以看作是结合了交叉编码器的表征能力和双编码器的低延迟优势。
我们得到的训练数据是成对形式的(毒性较弱的评论,毒性较强的评论)。
交叉编码器能够更好地模拟这种成对交互,但在测试时无法使用,因为评论之间总共有 14k*14k/2 = 9800 万种可能的成对交互。
另一方面,双编码器只能单独查看每条评论,并将其压缩成一个向量。
在这里,我使用后期交互机制以一种省时的方式近似计算所有的成对交互。这将我的公共 LB 分数从 0.844 提高到了 0.872。遗憾的是,它对私有 LB 并没有产生如此大的影响。
我使用了一些得分最高的公共笔记本来生成额外的伪标签。我还基于 2019 年比赛数据训练了一个模型来生成更多的伪标签。这样,对于每条评论,我都有 20 多个标签。
第 0 轮公共 LB:0.833 | 第 1 轮公共 LB:0.837 | 第 2 轮公共 LB:0.844 | 第 3 轮公共 LB:0.842
后见之明:我真希望我读过 Deepmind 的这篇论文:《Multiplicative Interactions and Where to Find Them》