返回列表

59th Place Solution (And My First Silver Medal)

387. Jigsaw Multilingual Toxic Comment Classification | jigsaw-multilingual-toxic-comment-classification

开始: 2020-03-23 结束: 2020-06-22 内容安全 数据算法赛
第59名解决方案(以及我的第一枚银牌)

第59名解决方案(以及我的第一枚银牌)

作者:Wei Hao Khoong
排名:第59名

概述

我最好的两次提交均来自一个堆叠流程。我在 Kaggle 和 Colab 上训练了几个模型,随后使用各种堆叠技术(不仅仅是常用的平均值、中位数、最小最大值)对它们的预测结果进行堆叠,以获得更高的 LB 分数。

最好的两次提交

  • 堆叠 > 12 个模型(使用了12个提交文件预测值的平均值,来自9个单模型和3个混合模型)(Private LB: 0.9469, Public LB: 0.9485)
  • 将上述在 Public LB 上得分为 0.9485 的堆叠预测结果与基于验证数据训练的 ExtraTreesClassifier 预测结果进行混合(使用了 该Notebook(Private LB: 0.9471, Public LB: 0.9485)

Best Submissions

用于堆叠的模型

  • XLM-RoBERTa
  • XLM-RoBERTa Large
  • XLM-RoBERTa Large + MLM 训练
  • ExtraTreesClassifier

P.S. 可能遗漏了一两个,如果发现遗漏我会在此更新。

模型训练方式

  • 对于 MLM 模型(上面的第三个),我是在 Kaggle 上训练的
  • 对于 XLM-RoBERTa 模型,我是在 Google Colab TPU 上训练的

引用的模型相关 Notebooks

非常感谢所有对以下 Note 做出贡献的人,你们教会了我很多!我对 NLP 还比较陌生,你们的分享让我在这个领域感到更加自在和感兴趣! :)

用于提交的 Notebooks

同比赛其他方案