返回列表

16th Place Solution: Simple Calibrations

387. Jigsaw Multilingual Toxic Comment Classification | jigsaw-multilingual-toxic-comment-classification

开始: 2020-03-23 结束: 2020-06-22 内容安全 数据算法赛
第16名方案:简单的校准

第16名方案:简单的校准

作者: Sxwat | 排名: 16 | 发布日期: 2020-06-23

恭喜获胜者!
感谢 Kaggle 团队、组织者,以及那些富有教育意义和趣味的 Notebooks(特别感谢 @riblidezso, @shonenkov, @jazivxt )。
这是我第一次参加 NLP 比赛,在这里我接触了 NLP 领域的 SOTA 模型(从 GloVe/FastText + LSTMs -> Transformer -> BERT -> XLM-ROBERTa,这是一段激动人心的旅程)。
拿到金牌对我来说太不真实了(我是前10名中掉落名次最多的人),但无论如何,我很高兴能拿到我的银牌(这是我目前唯一的奖牌 😃 )。

对我有效的技巧

  1. XLM-ROBERTa 配合 LSTM + MAXPOOLING 头,取得了 0.9328 Private(Public 0.9346)的成绩。
  2. 集成第一步的模型,取得了 0.9453 Private(Public 0.9474)的成绩。
  3. 通过流行模板识别机器人评论,取得了 0.9458 Private(Public 0.9481)的成绩。
  4. 对测试集中的每种语言进行简单的校准(将第3步的预测概率转换为 logit,然后在 logit 上为每种语言添加一些常数。结果发现我需要为 fr 和 es 添加正常数,为 it 和 pt 添加负常数),这些调整使我的最终成绩达到了 0.9482 Private(Public 0.9505)。

正如我现在所看到的,我在第二步的集成上过拟合了,没能找到好的交叉验证(CV)策略。

同比赛其他方案