返回列表

6th Place solution

475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating

开始: 2021-11-08 结束: 2022-02-07 内容安全 数据算法赛
第6名解决方案

第6名解决方案

作者: kfsky, mogmog, kma###, mkt0309
比赛排名: 第6名

概述

恭喜所有的获奖者。对我们来说真的很幸运,我们获得了金牌。我们的成员都没敢想象这个结果。正如第7名解决方案中指出的那样,我们有很多模型主要是直接在 Jigsaw 1st 数据集上训练的,这可能使得模型在私有测试集上的表现更好。这纯粹是运气。

数据

当我们使用 jigsaw_1 训练回归模型时,我们通过以下公式计算目标值:

(y = toxic*0.32 + severe_toxic*1.82 + obscene*0.16 + threat*1.5 + insult*0.64 + identity_hate*1.5)

交叉验证策略

我们使用 validation_data.csv 来评估 CV 分数。(为了更准确地评估,)我们从训练数据中删除了所有与验证数据重叠的句子。

预处理 / 特征工程

mogmog 部分

训练数据是 jigsaw1(应用了下采样)和 Ruddit。我们应用了多种模式的文本预处理。预处理后,对每一份数据应用 TF-IDF(以及用于 lgb 的 SVD)、gensim_embedding、基本特征(词数、字符数)、FastText embedding 来生成特征。

kma### 部分

训练数据是 jigsaw_1、ruddit、jigsaw_regression_data。我们对 jigsaw_1 和 ruddit 应用了文本清洗,而对 jigsaw_regression_data 没有进行清洗。我们对每一份数据应用 TF-IDF,并训练 Ridge 回归(alpha=0.5, 1, 2)。在推理阶段,alpha=0.5, 1, 和 2 被用作集成。

kfsky 部分

训练数据是 jigsaw1 数据(应用了下采样、文本清洗),用于训练数据和生成特征。

  • TF-IDF(以及 SVD)
  • CountVectorizer(以及 SVD)
  • 词数
  • 字符数
  • FastText(100维)

使用这些特征训练 LightGBM。

并且我们使用了 TF-IDF 并训练了 Ridge 模型。

训练模型

我们训练了以下模型。

模型 数据集 文本清洗 特征 CV
LightGBM_kfksy_1 jigsaw_1 已清洗 TF-IDF, CountVectriser, FastText, Word count, Character count 0.6843
Ridge_kfksy_1 jigsaw_1 已清洗 TF-IDF 0.6639
Ridge_kma###_1 jigsaw_1 已清洗 TF-IDF 0.6823
Ridge_kma###_2 ruddit 已清洗 TF-IDF 0.6312
Ridge_kma###_3 jigsaw_regression_data TF-IDF 0.6713
Ridge_mogmog_1 jigsaw_1 已清洗