475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating
恭喜所有的获奖者。对我们来说真的很幸运,我们获得了金牌。我们的成员都没敢想象这个结果。正如第7名解决方案中指出的那样,我们有很多模型主要是直接在 Jigsaw 1st 数据集上训练的,这可能使得模型在私有测试集上的表现更好。这纯粹是运气。
当我们使用 jigsaw_1 训练回归模型时,我们通过以下公式计算目标值:
(y = toxic*0.32 + severe_toxic*1.82 + obscene*0.16 + threat*1.5 + insult*0.64 + identity_hate*1.5)
我们使用 validation_data.csv 来评估 CV 分数。(为了更准确地评估,)我们从训练数据中删除了所有与验证数据重叠的句子。
训练数据是 jigsaw1(应用了下采样)和 Ruddit。我们应用了多种模式的文本预处理。预处理后,对每一份数据应用 TF-IDF(以及用于 lgb 的 SVD)、gensim_embedding、基本特征(词数、字符数)、FastText embedding 来生成特征。
训练数据是 jigsaw_1、ruddit、jigsaw_regression_data。我们对 jigsaw_1 和 ruddit 应用了文本清洗,而对 jigsaw_regression_data 没有进行清洗。我们对每一份数据应用 TF-IDF,并训练 Ridge 回归(alpha=0.5, 1, 2)。在推理阶段,alpha=0.5, 1, 和 2 被用作集成。
训练数据是 jigsaw1 数据(应用了下采样、文本清洗),用于训练数据和生成特征。
使用这些特征训练 LightGBM。
并且我们使用了 TF-IDF 并训练了 Ridge 模型。
我们训练了以下模型。
| 模型 | 数据集 | 文本清洗 | 特征 | CV |
|---|---|---|---|---|
| LightGBM_kfksy_1 | jigsaw_1 | 已清洗 | TF-IDF, CountVectriser, FastText, Word count, Character count | 0.6843 |
| Ridge_kfksy_1 | jigsaw_1 | 已清洗 | TF-IDF | 0.6639 |
| Ridge_kma###_1 | jigsaw_1 | 已清洗 | TF-IDF | 0.6823 |
| Ridge_kma###_2 | ruddit | 已清洗 | TF-IDF | 0.6312 |
| Ridge_kma###_3 | jigsaw_regression_data | 无 | TF-IDF | 0.6713 |
| Ridge_mogmog_1 | jigsaw_1 | 已清洗 |