475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating
这太棒了!
我刚拿到结果,超级开心。
感谢所有参与比赛的人,感谢提出挑战的主办方,也感谢 Kaggle 让我方便地使用他们的 GPU 资源。
今天直到一天结束我都没有太多时间,但我很快会在这里分享我的解决方案,这是 roberta base (tito cv 0.6983) + roberta large (tito cv 0.7014) 与 detoxify (host cv 0.7036) 的最终组合。
再次感谢大家!
我刚刚在以下训练和推理笔记本中分享了解决方案:
训练:
推理:
感谢评论区作者们的致谢和贡献(如果漏掉了谁我很抱歉):
Jigsaw 评分延续了 2018-2019-2020 挑战的动机。除了评估解决方案最终性能的新指标(任务)之外,我想补充这次新挑战相对于之前的几个特点,其中 (1) 主办方没有提供特定的训练数据集,(2) 主办方确实提供了验证数据集,最后 (3) 我们拥有的公共榜单分数参考非常稀缺,仅占最终结果的 5%。
随着我们在比赛开发中的推进,源于上述 (1) 和 (2),我认为与模型的多样性同样重要的是,这次训练数据集的多样性可能扮演更重要的角色。同样,源于 (2) 和 (3) 以及对公共榜单提交的不信任,我在最后一周决定优先考虑验证分数,无论公共榜单是否确认性能有所提升。
- 来自之前的 Jigsaw 比赛,我使用了:
- 来自本次比赛:
虽然它们不是解决方案的一部分,我也尝试过外部数据,但没有成功。我指的是 ruddit 和 hate_speech 数据,感谢 @andre112 和 @rajkumarl。具体来说,我提取了成对文本样本,因为所有交叉组合的最终扩展量巨大。也许我在这一点上犯了错,我应该对文本进行采样,以适合我可用资源的数量来处理生成的成对文本。
正如我在本讨论开头的简要