返回列表

12th Solution – Trust Your CV

475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating

开始: 2021-11-08 结束: 2022-02-07 内容安全 数据算法赛
第12名方案 – 相信你的交叉验证

第12名方案 – 相信你的交叉验证

作者: LIA
比赛排名: 第12名
首先,感谢组织者和其他参与者。我学到了很多东西,包括交叉验证(CV)的重要性。

方案概述

我的方案总结如下:

  • 使用 ‘validation_data.csv’ 进行CV评估(不用于训练)。
  • 训练数据集 - ‘[Jigsaw Multilingual Toxic Comment Classification](https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification)’ 竞赛中的 ‘jigsaw-unintended-bias-training.csv’ 和 ‘jigsaw-toxic-comment-train.csv’。
  • 模型 – 带有/不带有文本清洗的 TF-IDF,distilroberta-base,roberta-base,roberta-large。
  • 集成所有训练好的模型和 TF-IDF。

交叉验证 (CV)

在我的方案中,最重要的一点是相信交叉验证。所以,我首先介绍一下鼓励我关注 CV 而非 LB(排行榜)的讨论。

我发现很难获得超过 0.70 的 CV 分数(使用 validation_data.csv),所以我的目标是获得能够稳定给出 CV 0.7 的模型集成

数据集

似乎大多数公开的内核都使用来自 “Toxic Comment Classification Challenge” 的 ’jigsaw-toxic-comment-train.csv’。该数据似乎是 “[Jigsaw Multilingual Toxic Comment Classification](https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification)” 中数据的子集,所以我使用了多语言挑战赛中的数据。

在有毒评论和非预期偏见数据中,有包括 ‘toxic’、‘severe_toxic’ 等列。除了 ‘severe_toxic’ 权重为 2 外,我给所有列的权重都设为 1。(这对 CV 似乎没有太大影响)

模型与集成

TF-IDF – TF-IDF 的代码几乎未修改,直接参考了以下代码:

类 Bert 模型 - distilroberta-base, roberta-base, 和 roberta-large。使用 fasthug 进行训练。

提交(集成) – 使用了穷举搜索和等权重进行提交。两者都有效,但等权重的效果更好。

  • 提交 1 (CV 0.706, 公榜 0.77805, 私榜 0.81029) - 穷举搜索以最大化 CV
  • 提交 2 (CV 0.705, 公榜 0.77631, 私榜 0.81044) - 除 roberta-large 外权重相似(实际上,就 roberta-large 而言,由于计算预算限制,我只训练了几个 epoch……) ➡ CV 705, 公榜 0.77631 私榜 0.81044

推理内核已更新在此。再次感谢所有参与者和组织者,祝贺所有获奖者。

同比赛其他方案