12th Solution – Trust Your CV | 优胜方案

第12名方案 – 相信你的交叉验证

作者： LIA
比赛排名： 第12名

首先，感谢组织者和其他参与者。我学到了很多东西，包括交叉验证（CV）的重要性。

方案概述

我的方案总结如下：

使用 ‘validation_data.csv’ 进行CV评估（不用于训练）。
训练数据集 - ‘[Jigsaw Multilingual Toxic Comment Classification](https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification)’ 竞赛中的 ‘jigsaw-unintended-bias-training.csv’ 和 ‘jigsaw-toxic-comment-train.csv’。
模型 – 带有/不带有文本清洗的 TF-IDF，distilroberta-base，roberta-base，roberta-large。
集成所有训练好的模型和 TF-IDF。

交叉验证 (CV)

在我的方案中，最重要的一点是相信交叉验证。所以，我首先介绍一下鼓励我关注 CV 而非 LB（排行榜）的讨论。

我发现很难获得超过 0.70 的 CV 分数（使用 validation_data.csv），所以我的目标是获得能够稳定给出 CV 0.7 的模型集成。

数据集

似乎大多数公开的内核都使用来自 “Toxic Comment Classification Challenge” 的 ’jigsaw-toxic-comment-train.csv’。该数据似乎是 “[Jigsaw Multilingual Toxic Comment Classification](https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification)” 中数据的子集，所以我使用了多语言挑战赛中的数据。

在有毒评论和非预期偏见数据中，有包括 ‘toxic’、‘severe_toxic’ 等列。除了 ‘severe_toxic’ 权重为 2 外，我给所有列的权重都设为 1。（这对 CV 似乎没有太大影响）

模型与集成

TF-IDF – TF-IDF 的代码几乎未修改，直接参考了以下代码：

类 Bert 模型 - distilroberta-base, roberta-base, 和 roberta-large。使用 fasthug 进行训练。

Jigsaw Training - ULMFIT w/FastAi

提交（集成） – 使用了穷举搜索和等权重进行提交。两者都有效，但等权重的效果更好。

提交 1 (CV 0.706, 公榜 0.77805, 私榜 0.81029) - 穷举搜索以最大化 CV
提交 2 (CV 0.705, 公榜 0.77631, 私榜 0.81044) - 除 roberta-large 外权重相似（实际上，就 roberta-large 而言，由于计算预算限制，我只训练了几个 epoch……） ➡ CV 705, 公榜 0.77631 私榜 0.81044

推理内核已更新在此。再次感谢所有参与者和组织者，祝贺所有获奖者。

12th Solution – Trust Your CV

第12名方案 – 相信你的交叉验证

首先，感谢组织者和其他参与者。我学到了很多东西，包括交叉验证（CV）的重要性。

方案概述

交叉验证 (CV)

数据集

模型与集成

同比赛其他方案