返回列表

2nd place solution

446. CommonLit Readability Prize | commonlitreadabilityprize

开始: 2021-05-03 结束: 2021-08-02 智能评测 数据算法赛
第二名解决方案

第二名解决方案

作者:Takoi (Grandmaster) | 比赛排名:第2名

首先,我要感谢 Kaggle 和主办方举办了如此有趣的比赛!

摘要

我选择了 Public LB 表现最好和 CV 表现最好的两个模型作为最终提交。

CV Public Private
最佳 Public 0.4503 0.444 0.446
最佳 CV 0.4449 0.447 0.447

以下是关于最佳 Public 模型的说明。(在最佳 CV 模型中,权重是通过 nelder-mead 算法确定的,并且取消了权重之和为 1 的限制。模型部分也相对于最佳 Public 模型做了一些改动。)
我集成了 19 个模型并进行了后处理。我通过观察 LB 和 CV 来调整模型的权重。我使用了负权重以及正权重。在后处理中,我根据预测值乘以了不同的系数。

交叉验证

我使用了以下方法:
https://www.kaggle.com/abhishek/step-1-create-folds

模型与权重

除了模型 1 和 2 之外,我将其他模型的 dropout 设置为 0 进行训练。此外,我只对模型 3 进行了 mlm 预训练。权重通过 nelder-mead 算法计算,然后针对更高的 LB 进行微调。

模型 CV Public 权重
1. roberta-base -> svr0.5000.4760.020
2. roberta-base -> ridge0.5000.020
3. roberta-base0.4850.4760.040
4. roberta-large0.4830.4630.088
5. muppet-roberta-large0.4800.4660.022
6. bart-large0.4760.4690.090
7. electra-large0.4830.4700.050
8. funnel-large-base0.4790.4710.050
9. deberta-large0.4810.4600.230
10. deberta-v2-xlarge0.4860.4660.050
11. mpnet-base0.4820.4700.130
12. deberta-v2-xxlarge0.4820.4650.140
13. funnel-large0.4750.4640.110
14. gpt2-medium0.4980.4780.170
15. albert-v2-xxlarge0.4860.4670.120
16. electra-base0.493