18th Place Solution

第18名方案

作者：Max
比赛排名：第18名

祝贺所有的获奖者，也感谢 Kaggle 举办这次比赛。

模型：仅使用 RoBERTa base 作为模型，我的得分是基于单模型的 5 折集成（使用 Abhishek 的折划分）。
数据清洗：利用包含单词的“魔法（magic）”方法恢复了原始标签。
预处理：替换了错误的单词、重复的字符、URL，并将 "..n" 转换为 ". . . n"，解释在此。
标签平滑：在文本 token 上分配 90% 的权重，在填充（padding）和前四个 token 上分配 10% 的权重。此外，对于标签的每次出现，也执行了 0.90%/n 的操作。
Dropout：将所有 dropout 改为 Multi-Sample Dropout，参考自论文以及 Google QUEST Q&A 第一名的方案。
输入位移：在训练期间，随机移动填充周围的输入 token。
后处理：使用了一个相当简单的“魔法”脚本来恢复原始标签（稍后会发布内核代码）。
改进的查找算法：仅仅通过朴素地获取标签索引会引入许多错误，对此进行了改进。

第18名方案