475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating
我的方案总结如下:
在我的方案中,最重要的一点是相信交叉验证。所以,我首先介绍一下鼓励我关注 CV 而非 LB(排行榜)的讨论。
我发现很难获得超过 0.70 的 CV 分数(使用 validation_data.csv),所以我的目标是获得能够稳定给出 CV 0.7 的模型集成。
似乎大多数公开的内核都使用来自 “Toxic Comment Classification Challenge” 的 ’jigsaw-toxic-comment-train.csv’。该数据似乎是 “[Jigsaw Multilingual Toxic Comment Classification](https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification)” 中数据的子集,所以我使用了多语言挑战赛中的数据。
在有毒评论和非预期偏见数据中,有包括 ‘toxic’、‘severe_toxic’ 等列。除了 ‘severe_toxic’ 权重为 2 外,我给所有列的权重都设为 1。(这对 CV 似乎没有太大影响)
TF-IDF – TF-IDF 的代码几乎未修改,直接参考了以下代码:
类 Bert 模型 - distilroberta-base, roberta-base, 和 roberta-large。使用 fasthug 进行训练。
提交(集成) – 使用了穷举搜索和等权重进行提交。两者都有效,但等权重的效果更好。
推理内核已更新在此。再次感谢所有参与者和组织者,祝贺所有获奖者。