21st Place solution : Magic of Ensemble

387. Jigsaw Multilingual Toxic Comment Classification | jigsaw-multilingual-toxic-comment-classification

开始: 2020-03-23 结束: 2020-06-22 内容安全数据算法赛

第21名方案：集成的魔力

第21名方案：集成的魔力

作者：Phiratath N. | 比赛排名：第21名

非常感谢 @riblidezso 分享了这个精彩的 Notebook：https://www.kaggle.com/riblidezso/train-from-mlm-finetuned-xlm-roberta-large。

简而言之，集成和第二阶段按语言微调就是魔法（当然过拟合也算）。

PB 分数时间线

6月8日：公共排行榜高分提交的集成几何平均数 (Gmean) -> 0.9473
6月10日：集成 LGBM 方案与 Gmean 提交 -> 0.9478
6月21日：(魔法时刻) 添加外部数据到验证集，并在 XLM 的第二阶段训练中改为按语言验证，以及按语言集成 -> 0.9500

不幸的是，我们在最后2天将分数提升到了 0.9500，但已经没有 TPU 资源来训练新的外部数据了。

验证数据集

我们将验证数据按语言分为3组，并从外部数据中找到了另外3种语言，用于 @riblidezso Notebook 中的第二阶段训练。折外分数看起来很有希望，因此我们将它们混合到我们的主要提交中，并将分数提升至 0.9500。

参考资料

Gmean Notebook https://www.kaggle.com/paulorzp/gmean-of-low-correlation-lb-0-952x XLM-Roberta https://www.kaggle.com/riblidezso/train-from-mlm-finetuned-xlm-roberta-large LGBM 方案 https://www.kaggle.com/miklgr500/lgbm-solution 外部数据：俄语有毒评论 https://www.kaggle.com/blackmoon/russian-language-toxic-comments 外部数据：Open Subtitles 有毒伪标签 https://www.kaggle.com/shonenkov/open-subtitles-toxic-pseudo-labeling (魔法) 按语言验证与微调 https://www.kaggle.com/medrau/train-from-mlm-finetuned-val-per-lang

同比赛其他方案

1st place solution overview

3rd Place Solution

4th place solution

5th place solution

6th place solution