16th Place Solution: Simple Calibrations

第16名方案：简单的校准

作者： Sxwat | 排名： 16 | 发布日期： 2020-06-23

恭喜获胜者！
感谢 Kaggle 团队、组织者，以及那些富有教育意义和趣味的 Notebooks（特别感谢 @riblidezso, @shonenkov, @jazivxt ）。
这是我第一次参加 NLP 比赛，在这里我接触了 NLP 领域的 SOTA 模型（从 GloVe/FastText + LSTMs -> Transformer -> BERT -> XLM-ROBERTa，这是一段激动人心的旅程）。
拿到金牌对我来说太不真实了（我是前10名中掉落名次最多的人），但无论如何，我很高兴能拿到我的银牌（这是我目前唯一的奖牌 😃 ）。

对我有效的技巧

XLM-ROBERTa 配合 LSTM + MAXPOOLING 头，取得了 0.9328 Private（Public 0.9346）的成绩。
集成第一步的模型，取得了 0.9453 Private（Public 0.9474）的成绩。
通过流行模板识别机器人评论，取得了 0.9458 Private（Public 0.9481）的成绩。
对测试集中的每种语言进行简单的校准（将第3步的预测概率转换为 logit，然后在 logit 上为每种语言添加一些常数。结果发现我需要为 fr 和 es 添加正常数，为 it 和 pt 添加负常数），这些调整使我的最终成绩达到了 0.9482 Private（Public 0.9505）。

正如我现在所看到的，我在第二步的集成上过拟合了，没能找到好的交叉验证（CV）策略。

第16名方案：简单的校准

对我有效的技巧

同比赛其他方案