返回列表

12th (public 19th) place solution

446. CommonLit Readability Prize | commonlitreadabilityprize

开始: 2021-05-03 结束: 2021-08-02 智能评测 数据算法赛
第12名(公榜第19名)方案

第12名(公榜第19名)方案

作者: cfiken (Master)
比赛: CommonLit Readability Prize

首先,感谢 Kaggle 和主办方组织这场有趣的比赛。我也要感谢各位 Kaggle 参赛者,你们让这场比赛对我来说充满了乐趣。非常感谢大家!

总结

最终提交的是由 13 个和 11 个模型组成的集成方案。集成权重是通过 Nelder-mead 算法计算的,目标函数使用了 CV(交叉验证)和 LB(排行榜)分数。

名称 CV Public LB Private LB
ensemble 13 0.4442 0.450 0.449
ensemble 11 0.4451 0.449 0.449

我使用维基百科数据(简单/普通版本)通过 MLM(掩码语言模型)和伪目标对 Huggingface 基础模型进行了预训练,然后使用比赛数据对其进行微调。我没有使用其他外部数据,因为我无法判断是否允许使用抓取的数据。

带来显著提升的方法包括:重新初始化、带伪目标的预训练以及模型集成。

模型

13 个模型集成方案的基础模型包括:9 个 microsoft/deberta-large,2 个 albert-xxlarge-v2,以及 1 个 google/electra-large-discriminator 和 1 个 roberta-large

名称 CV Public LB Private LB
deberta-large multi custom head0.4740.4640.468
deberta-large multi custom head0.4670.4620.467
deberta-large attn head0.4670.4610.463
deberta-large multi custom head0.4650.4570.457
deberta-large multi custom head0.4630.4560.456
roberta-large multi custom head0.4750.4650.456
deberta-large multi custom head0.4620.4560.460
deberta-large multi custom head0.4630.4550.459
deberta-large multi custom head0.4630.4550.460
deberta-large with small (not pre-trained) network0.4670.4580.458
alberta-xxlarge-v2 cls head0.4750.4610.460
alberta-xxlarge-v2 multi custom head0.467