387. Jigsaw Multilingual Toxic Comment Classification | jigsaw-multilingual-toxic-comment-classification
非常感谢 @riblidezso 分享了这个精彩的 Notebook:https://www.kaggle.com/riblidezso/train-from-mlm-finetuned-xlm-roberta-large。
简而言之,集成和第二阶段按语言微调就是魔法(当然过拟合也算)。
不幸的是,我们在最后2天将分数提升到了 0.9500,但已经没有 TPU 资源来训练新的外部数据了。
我们将验证数据按语言分为3组,并从外部数据中找到了另外3种语言,用于 @riblidezso Notebook 中的第二阶段训练。折外分数 看起来很有希望,因此我们将它们混合到我们的主要提交中,并将分数提升至 0.9500。