4th - This is Great! - Shared Solution | 优胜方案

第4名 - 这太棒了！ - 分享解决方案

作者: Manuel Campos | 排名: 第4名

这太棒了！

我刚拿到结果，超级开心。

感谢所有参与比赛的人，感谢提出挑战的主办方，也感谢 Kaggle 让我方便地使用他们的 GPU 资源。

今天直到一天结束我都没有太多时间，但我很快会在这里分享我的解决方案，这是 roberta base (tito cv 0.6983) + roberta large (tito cv 0.7014) 与 detoxify (host cv 0.7036) 的最终组合。

再次感谢大家！

更新编辑：

分享代码

我刚刚在以下训练和推理笔记本中分享了解决方案：

训练：

推理：

合并 LUKE-RoBERTa 与 Detoxify

感谢评论区作者们的致谢和贡献（如果漏掉了谁我很抱歉）：

@yasufuminakama 及其笔记本训练和提交
@its7171 的笔记本 Jigsaw CV Strategy
@steubk 及其数据集 Detoxify Source Models
@pdnartreb 及其讨论帖讨论链接
(来自之前的讨论) @sorenj 及其笔记本 PerspectiveAPI Tuning 和 Scoring Ruddit Comments

更新编辑2：

概览

Jigsaw 评分延续了 2018-2019-2020 挑战的动机。除了评估解决方案最终性能的新指标（任务）之外，我想补充这次新挑战相对于之前的几个特点，其中 (1) 主办方没有提供特定的训练数据集，(2) 主办方确实提供了验证数据集，最后 (3) 我们拥有的公共榜单分数参考非常稀缺，仅占最终结果的 5%。

随着我们在比赛开发中的推进，源于上述 (1) 和 (2)，我认为与模型的多样性同样重要的是，这次训练数据集的多样性可能扮演更重要的角色。同样，源于 (2) 和 (3) 以及对公共榜单提交的不信任，我在最后一周决定优先考虑验证分数，无论公共榜单是否确认性能有所提升。

数据集的多样性：

- 来自之前的 Jigsaw 比赛，我使用了：

(2018 Jigsaw1) - 有毒评论分类挑战
(2019 Jigsaw2) - Jigsaw 无意偏差毒性分类
(2020 Jigsaw3) - 多语言有毒评论分类

- 来自本次比赛：

(2021 Jigsaw4) - 'validation_data.csv'。

虽然它们不是解决方案的一部分，我也尝试过外部数据，但没有成功。我指的是 ruddit 和 hate_speech 数据，感谢 @andre112 和 @rajkumarl。具体来说，我提取了成对文本样本，因为所有交叉组合的最终扩展量巨大。也许我在这一点上犯了错，我应该对文本进行采样，以适合我可用资源的数量来处理生成的成对文本。

验证策略：

正如我在本讨论开头的简要

4th - This is Great! - Shared Solution