59th Place Solution (And My First Silver Medal)

387. Jigsaw Multilingual Toxic Comment Classification | jigsaw-multilingual-toxic-comment-classification

开始: 2020-03-23 结束: 2020-06-22 内容安全数据算法赛

第59名解决方案（以及我的第一枚银牌）

第59名解决方案（以及我的第一枚银牌）

作者：Wei Hao Khoong
排名：第59名

概述

我最好的两次提交均来自一个堆叠流程。我在 Kaggle 和 Colab 上训练了几个模型，随后使用各种堆叠技术（不仅仅是常用的平均值、中位数、最小最大值）对它们的预测结果进行堆叠，以获得更高的 LB 分数。

最好的两次提交

堆叠 > 12 个模型（使用了12个提交文件预测值的平均值，来自9个单模型和3个混合模型）（Private LB: 0.9469, Public LB: 0.9485）
将上述在 Public LB 上得分为 0.9485 的堆叠预测结果与基于验证数据训练的 ExtraTreesClassifier 预测结果进行混合（使用了该Notebook）（Private LB: 0.9471, Public LB: 0.9485）

Best Submissions

用于堆叠的模型

XLM-RoBERTa
XLM-RoBERTa Large
XLM-RoBERTa Large + MLM 训练
ExtraTreesClassifier

P.S. 可能遗漏了一两个，如果发现遗漏我会在此更新。

模型训练方式

对于 MLM 模型（上面的第三个），我是在 Kaggle 上训练的
对于 XLM-RoBERTa 模型，我是在 Google Colab TPU 上训练的

引用的模型相关 Notebooks

非常感谢所有对以下 Note 做出贡献的人，你们教会了我很多！我对 NLP 还比较陌生，你们的分享让我在这个领域感到更加自在和感兴趣！ :)

用于提交的 Notebooks

同比赛其他方案

1st place solution overview

3rd Place Solution

4th place solution

5th place solution

6th place solution