返回列表

4th - This is Great! - Shared Solution

475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating

开始: 2021-11-08 结束: 2022-02-07 内容安全 数据算法赛
第4名 - 这太棒了! - 分享解决方案

第4名 - 这太棒了! - 分享解决方案

作者: Manuel Campos | 排名: 第4名

这太棒了!

我刚拿到结果,超级开心。

感谢所有参与比赛的人,感谢提出挑战的主办方,也感谢 Kaggle 让我方便地使用他们的 GPU 资源。

今天直到一天结束我都没有太多时间,但我很快会在这里分享我的解决方案,这是 roberta base (tito cv 0.6983) + roberta large (tito cv 0.7014) 与 detoxify (host cv 0.7036) 的最终组合。

再次感谢大家!

更新编辑:

分享代码

我刚刚在以下训练和推理笔记本中分享了解决方案:

训练:

推理:

感谢评论区作者们的致谢和贡献(如果漏掉了谁我很抱歉):

更新编辑2:

概览

Jigsaw 评分延续了 2018-2019-2020 挑战的动机。除了评估解决方案最终性能的新指标(任务)之外,我想补充这次新挑战相对于之前的几个特点,其中 (1) 主办方没有提供特定的训练数据集,(2) 主办方确实提供了验证数据集,最后 (3) 我们拥有的公共榜单分数参考非常稀缺,仅占最终结果的 5%。

随着我们在比赛开发中的推进,源于上述 (1) 和 (2),我认为与模型的多样性同样重要的是,这次训练数据集的多样性可能扮演更重要的角色。同样,源于 (2) 和 (3) 以及对公共榜单提交的不信任,我在最后一周决定优先考虑验证分数,无论公共榜单是否确认性能有所提升。

数据集的多样性:

- 来自之前的 Jigsaw 比赛,我使用了:

  • (2018 Jigsaw1) - 有毒评论分类挑战
  • (2019 Jigsaw2) - Jigsaw 无意偏差毒性分类
  • (2020 Jigsaw3) - 多语言有毒评论分类

- 来自本次比赛:

  • (2021 Jigsaw4) - 'validation_data.csv'。

虽然它们不是解决方案的一部分,我也尝试过外部数据,但没有成功。我指的是 ruddit 和 hate_speech 数据,感谢 @andre112@rajkumarl。具体来说,我提取了成对文本样本,因为所有交叉组合的最终扩展量巨大。也许我在这一点上犯了错,我应该对文本进行采样,以适合我可用资源的数量来处理生成的成对文本。

验证策略:

正如我在本讨论开头的简要

同比赛其他方案