6th Place solution

第6名解决方案

作者： kfsky, mogmog, kma###, mkt0309
比赛排名： 第6名

概述

恭喜所有的获奖者。对我们来说真的很幸运，我们获得了金牌。我们的成员都没敢想象这个结果。正如第7名解决方案中指出的那样，我们有很多模型主要是直接在 Jigsaw 1st 数据集上训练的，这可能使得模型在私有测试集上的表现更好。这纯粹是运气。

数据

当我们使用 jigsaw_1 训练回归模型时，我们通过以下公式计算目标值：

(y = toxic*0.32 + severe_toxic*1.82 + obscene*0.16 + threat*1.5 + insult*0.64 + identity_hate*1.5)

交叉验证策略

我们使用 validation_data.csv 来评估 CV 分数。（为了更准确地评估，）我们从训练数据中删除了所有与验证数据重叠的句子。

预处理 / 特征工程

mogmog 部分

训练数据是 jigsaw1（应用了下采样）和 Ruddit。我们应用了多种模式的文本预处理。预处理后，对每一份数据应用 TF-IDF（以及用于 lgb 的 SVD）、gensim_embedding、基本特征（词数、字符数）、FastText embedding 来生成特征。

kma### 部分

训练数据是 jigsaw_1、ruddit、jigsaw_regression_data。我们对 jigsaw_1 和 ruddit 应用了文本清洗，而对 jigsaw_regression_data 没有进行清洗。我们对每一份数据应用 TF-IDF，并训练 Ridge 回归（alpha=0.5, 1, 2）。在推理阶段，alpha=0.5, 1, 和 2 被用作集成。

kfsky 部分

训练数据是 jigsaw1 数据（应用了下采样、文本清洗），用于训练数据和生成特征。

TF-IDF（以及 SVD）
CountVectorizer（以及 SVD）
词数
字符数
FastText（100维）

使用这些特征训练 LightGBM。

并且我们使用了 TF-IDF 并训练了 Ridge 模型。

训练模型

我们训练了以下模型。

模型	数据集	文本清洗	特征	CV
LightGBM_kfksy_1	jigsaw_1	已清洗	TF-IDF, CountVectriser, FastText, Word count, Character count	0.6843
Ridge_kfksy_1	jigsaw_1	已清洗	TF-IDF	0.6639
Ridge_kma###_1	jigsaw_1	已清洗	TF-IDF	0.6823
Ridge_kma###_2	ruddit	已清洗	TF-IDF	0.6312
Ridge_kma###_3	jigsaw_regression_data	无	TF-IDF	0.6713
Ridge_mogmog_1	jigsaw_1	已清洗同比赛其他方案 1st place solution with code Toxic Solution and Review (2nd Place) A Detoxify solution (#3) 4th - This is Great! - Shared Solution 5th place solution