475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating
公开 LB(Leaderboard)看起来具有误导性,所以我只关注验证集的性能。由于不清楚验证数据和私有 LB 数据之间是否存在分布偏移,我只考虑在验证数据上构建线性模型,以最大化解决方案的鲁棒性。为了实现这一点,我在 Jigsaw2018 数据上训练模型,并使用预测概率(6个输出)作为输入特征,在验证数据上拟合线性模型。权重通过遗传算法进行优化。我对 Jigsaw2019 数据(7个输出)也做了同样的处理。Ruddit 数据只有一个标签,因此没有在验证数据上进行优化。
下表显示了我所有模型的性能。我只使用了 RoBERTa 和 DeBERTa 模型,因为它们给出了最好的性能。最终提交是 15 个模型的加权排名平均。"-l" 表示我包括了 Jigsaw18 和验证集之间的重复项。
| 模型 | 数据 | 验证集 | 公开 LB | 私有 LB |
|---|---|---|---|---|
| roberta-base | jigsaw18 | 0.7023 | 0.7815 | 0.8052 |
| roberta-large | jigsaw18 | 0.7035 | 0.7788 | 0.8064 |
| deberta-base | jigsaw18 | 0.7040 | 0.7598 | 0.8030 |
| deberta-large | jigsaw18 | 0.7050 | 0.7906 | 0.8139 |
| roberta-base-l | jigsaw18 | 0.7028 | 0.7690 | 0.8070 |
| roberta-large-l | jigsaw18 | 0.7027 | 0.7737 | 0.8013 |
| deberta-base-l | jigsaw18 | 0.7030 | 0.7474 | 0.8013 |
| deberta-large-l | jigsaw18 | 0.7044 | 0.7716 | 0.8085 |
| roberta-base | jigsaw19 | 0.7008 | 0.7617 | 0.8020 |
| roberta-large | jigsaw19 | 0.6991 | 0.7468 | 0.7968 |
| deberta-base | jigsaw19 | 0.7026 | 0.7403 | 0.7958 |
| roberta-base | ruddit | 0.6859 | 0.8108 | 0.7845 |
| roberta-large | ruddit | 0.6865 | 0.8132 | 0.7955 |
| deberta-base | ruddit | 0.6880 | 0.7903 | 0.7880 |
| deberta-large | ruddit | 0.6942 | 0.8296 | 0.7989 |