返回列表

7th Place Solution

475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating

开始: 2021-11-08 结束: 2022-02-07 内容安全 数据算法赛
第7名解决方案

第7名解决方案

作者: colum2131, MST, calpis10000, Naoism
比赛排名: 第7名

我们的团队不信任公共排行榜,而是致力于提高在未处理的 validation_df 上的分数。最终,我们在没有泄漏的情况下将分数提高到了 0.7211,这是私人排行榜上第7好的成绩。我们以为这是一个很棒的结果,因为我们一直在运行 Trust CV,但后来我们意识到我们集成了一些“中了彩票”的模型。

正如其他团队所指出的,私人排行榜数据集的测试评论与 Jigsaw 的第一次比赛——有毒评论分类挑战重叠。因此,通过直接训练该数据集,是有可能进入金牌区的。

我们团队之所以能进入金牌区,部分原因是我们做了 Trust CV,但本质上是因为我们有“中了彩票”的模型,并且我们在加权平均中给了它们足够的权重。

以下是我们自那以后工作的简要概述。

模型 × 数据集

下表显示了用于最终提交的模型、训练的数据集以及分数。“伪标签”是指在 toxic-xlm-roberta 中使用 validation_df 训练并在该数据集上进行伪标注的模型。这种伪标注极大地提高了 CV,但私人 LB 并没有提高。

此外,我们在训练时非常强调不泄漏的重要性。具体来说,在训练 validation_data 时,使用了并查集 GroupKFold(union-find GroupKFold),而在训练其他数据集时,移除了 validation_data 中的文本。

名称 模型 数据集 CV 公共LB 私人LB
mst029toxic-xlm-robertaRuddit (伪标签)0.71260.773910.79796
mst030toxic-xlm-robertajigsaw 1st (伪标签)0.72240.775870.79676
msttweettoxic-xlm-robertaToxic Tweet (伪标签)0.71550.775870.79641
colum014roberta-basevalidation_df0.703070.795900.79410
colum015roberta-largevalidation_df0.703070.801890.79744
colum016deberta-v3-basevalidation_df0.706460.787300.79594
colum018unbiased-toxic-robertavalidation_df0.704260.803410.79416
colum019toxic-xlm-robertavalidation_df0.708980.767490.79644
colum020toxic-bertvalidation_df0.704560.775330.79422
calpis001roberta-largejigsaw 1st0.70310.791110.81814
calpis011toxic-xlm-robertajigsaw 1st (伪标签)0.72050.771520.79532
calpis012