387. Jigsaw Multilingual Toxic Comment Classification | jigsaw-multilingual-toxic-comment-classification
恭喜 @rafiko1 和 @leecming 赢得第一名,除了长期占据公共排行榜榜首之外,还要感谢 Google Jigsaw 主办第三届毒性评论分类挑战赛。
我们决定将模型分为3个部分。每个模型旁边列出的数字表示它们属于哪个部分。
总体而言,大约组合了50个模型,其中属于同一类型(父类)的基础模型进行了平均。因此,所有 varieties 的 XLM_RoBERTa_Base 模型都进行了平均,依此类推。
第一层融合过程:
(I) -> (XLM_RoBERTa_Base * 0.1) + (XLM_RoBERTa_Large * 0.5) + (XLM_RoBERTa_Large_MLM_training * 0.4)
(II) -> (Multilingual_BERT * 0.2) + (BERT * 0.8)
(III) -> (RNN * 0.6) + (WeakLearner * 0.4)
最终融合过程:
toxic= (I) * 0.8 + (II) * 0.1 + (III) * 0.1
我认为这是我们方法的主要亮点。就在比赛结束前一天,@veryrobustperson 发现,与得分较高的提交相比,我们大多数得分较低的提交都存在过度预测的情况。基于这一假设,我们尝试通过引入概率随机噪声来引入一个小的惩罚,从而对 >0.8 以及 <0.01 的预测引入重新缩放因子。我相信这里有很多值得探索的地方,但由于提交次数不足且时间缺乏,我们无法深入研究并进一步优化。对于我们尝试的两次不同的提交,分数提高了约 0.0005,因此我们认为即使在私有排行榜测试数据上,它也能很好地泛化。幸运的是,确实如此。
jigsaw-unintended-bias-train.csv 中毒性概率的最佳阈值更改为 0.2 到 0.3 之间的值,因为 0.5(默认舍入)看起来极度偏向无毒。最后,感谢我的队友 @veryrobustperson 和 @ipythonx,感谢我们进行的精彩讨论并不时提出新想法。我们差点就进入金牌区