475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating
我们的团队不信任公共排行榜,而是致力于提高在未处理的 validation_df 上的分数。最终,我们在没有泄漏的情况下将分数提高到了 0.7211,这是私人排行榜上第7好的成绩。我们以为这是一个很棒的结果,因为我们一直在运行 Trust CV,但后来我们意识到我们集成了一些“中了彩票”的模型。
正如其他团队所指出的,私人排行榜数据集的测试评论与 Jigsaw 的第一次比赛——有毒评论分类挑战重叠。因此,通过直接训练该数据集,是有可能进入金牌区的。
我们团队之所以能进入金牌区,部分原因是我们做了 Trust CV,但本质上是因为我们有“中了彩票”的模型,并且我们在加权平均中给了它们足够的权重。
以下是我们自那以后工作的简要概述。
下表显示了用于最终提交的模型、训练的数据集以及分数。“伪标签”是指在 toxic-xlm-roberta 中使用 validation_df 训练并在该数据集上进行伪标注的模型。这种伪标注极大地提高了 CV,但私人 LB 并没有提高。
此外,我们在训练时非常强调不泄漏的重要性。具体来说,在训练 validation_data 时,使用了并查集 GroupKFold(union-find GroupKFold),而在训练其他数据集时,移除了 validation_data 中的文本。
| 名称 | 模型 | 数据集 | CV | 公共LB | 私人LB |
|---|---|---|---|---|---|
| mst029 | toxic-xlm-roberta | Ruddit (伪标签) | 0.7126 | 0.77391 | 0.79796 |
| mst030 | toxic-xlm-roberta | jigsaw 1st (伪标签) | 0.7224 | 0.77587 | 0.79676 |
| msttweet | toxic-xlm-roberta | Toxic Tweet (伪标签) | 0.7155 | 0.77587 | 0.79641 |
| colum014 | roberta-base | validation_df | 0.70307 | 0.79590 | 0.79410 |
| colum015 | roberta-large | validation_df | 0.70307 | 0.80189 | 0.79744 |
| colum016 | deberta-v3-base | validation_df | 0.70646 | 0.78730 | 0.79594 |
| colum018 | unbiased-toxic-roberta | validation_df | 0.70426 | 0.80341 | 0.79416 |
| colum019 | toxic-xlm-roberta | validation_df | 0.70898 | 0.76749 | 0.79644 |
| colum020 | toxic-bert | validation_df | 0.70456 | 0.77533 | 0.79422 |
| calpis001 | roberta-large | jigsaw 1st | 0.7031 | 0.79111 | 0.81814 |
| calpis011 | toxic-xlm-roberta | jigsaw 1st (伪标签) | 0.7205 | 0.77152 | 0.79532 |
| calpis012 |