7th Place Solution

第7名解决方案

作者： colum2131, MST, calpis10000, Naoism
比赛排名： 第7名

我们的团队不信任公共排行榜，而是致力于提高在未处理的 validation_df 上的分数。最终，我们在没有泄漏的情况下将分数提高到了 0.7211，这是私人排行榜上第7好的成绩。我们以为这是一个很棒的结果，因为我们一直在运行 Trust CV，但后来我们意识到我们集成了一些“中了彩票”的模型。

正如其他团队所指出的，私人排行榜数据集的测试评论与 Jigsaw 的第一次比赛——有毒评论分类挑战重叠。因此，通过直接训练该数据集，是有可能进入金牌区的。

我们团队之所以能进入金牌区，部分原因是我们做了 Trust CV，但本质上是因为我们有“中了彩票”的模型，并且我们在加权平均中给了它们足够的权重。

以下是我们自那以后工作的简要概述。

模型 × 数据集

下表显示了用于最终提交的模型、训练的数据集以及分数。“伪标签”是指在 toxic-xlm-roberta 中使用 validation_df 训练并在该数据集上进行伪标注的模型。这种伪标注极大地提高了 CV，但私人 LB 并没有提高。

此外，我们在训练时非常强调不泄漏的重要性。具体来说，在训练 validation_data 时，使用了并查集 GroupKFold（union-find GroupKFold），而在训练其他数据集时，移除了 validation_data 中的文本。

名称	模型	数据集	CV	公共LB	私人LB
mst029	toxic-xlm-roberta	Ruddit (伪标签)	0.7126	0.77391	0.79796
mst030	toxic-xlm-roberta	jigsaw 1st (伪标签)	0.7224	0.77587	0.79676
msttweet	toxic-xlm-roberta	Toxic Tweet (伪标签)	0.7155	0.77587	0.79641
colum014	roberta-base	validation_df	0.70307	0.79590	0.79410
colum015	roberta-large	validation_df	0.70307	0.80189	0.79744
colum016	deberta-v3-base	validation_df	0.70646	0.78730	0.79594
colum018	unbiased-toxic-roberta	validation_df	0.70426	0.80341	0.79416
colum019	toxic-xlm-roberta	validation_df	0.70898	0.76749	0.79644
colum020	toxic-bert	validation_df	0.70456	0.77533	0.79422
calpis001	roberta-large	jigsaw 1st	0.7031	0.79111	0.81814
calpis011	toxic-xlm-roberta	jigsaw 1st (伪标签)	0.7205	0.77152	0.79532
calpis012 同比赛其他方案 1st place solution with code Toxic Solution and Review (2nd Place) A Detoxify solution (#3) 4th - This is Great! - Shared Solution 5th place solution