返回列表

21st Place solution : Magic of Ensemble

387. Jigsaw Multilingual Toxic Comment Classification | jigsaw-multilingual-toxic-comment-classification

开始: 2020-03-23 结束: 2020-06-22 内容安全 数据算法赛
第21名方案:集成的魔力

第21名方案:集成的魔力

作者:Phiratath N. | 比赛排名:第21名

非常感谢 @riblidezso 分享了这个精彩的 Notebook:https://www.kaggle.com/riblidezso/train-from-mlm-finetuned-xlm-roberta-large

简而言之,集成和第二阶段按语言微调就是魔法(当然过拟合也算)。

PB 分数时间线

  • 6月8日:公共排行榜高分提交的集成几何平均数 (Gmean) -> 0.9473
  • 6月10日:集成 LGBM 方案与 Gmean 提交 -> 0.9478
  • 6月21日:(魔法时刻) 添加外部数据到验证集,并在 XLM 的第二阶段训练中改为按语言验证,以及按语言集成 -> 0.9500

不幸的是,我们在最后2天将分数提升到了 0.9500,但已经没有 TPU 资源来训练新的外部数据了。

验证数据集

我们将验证数据按语言分为3组,并从外部数据中找到了另外3种语言,用于 @riblidezso Notebook 中的第二阶段训练。折外分数 看起来很有希望,因此我们将它们混合到我们的主要提交中,并将分数提升至 0.9500。

参考资料

同比赛其他方案