519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning
这是一个有趣的比赛,感谢主办方以及所有在这里分享的人。
我使用了 abiheshark 的 CV 策略,采用 5 折交叉验证,随机种子为 42。
我最好的 PB(Private Board)成绩是使用 伪标签训练和 Optuna 调优 CV 44494,PB 为 43363。
(但是这个 CV 并不准确,并且由于 Optuna 是针对所有训练 OOF 进行调优的,导致过拟合。我应该再次使用 OOF 进行基于 CV 的 Optuna 调优。不幸的是,我过于信任 LB,结果虽然提高了 LB,但损害了 PB,或者只是偶然)。
我最好的 PB 成绩是在没有伪标签训练且没有 Optuna 调优的情况下(通过每个模型每个目标的 CV 手工调整规则)取得的,CV 44543,PB 433541。
但在比赛结束后,我测试了伪标签+手工调整规则,结果是 43380,所以手工规则也不是很稳定,在本地 OOF CV 上调整权重时有过拟合的风险。
TODO:尝试 Ridge, Lasso, Hill Climb,Nelder-Mead,模型负权重等方法来改进集成结果。
最佳单模型(无伪标签训练)CV 约为 449,使用了回译预训练或 feedback2 预训练。
最佳单模型(带伪标签)CV 为 4469,对于延迟提交,我发现了一个更好的模型,CV 4456,PB 434726,见下表:


注意上图,epoch n 表示前 (n + 1) 个模型的平均值。
| 模型 | CV | LB | PB |
|---|---|---|---|
| base(dev3-large maxlen1280) | 4514 | 442013 | 438818 |
| base+rank_loss | 4505 | 438912 | 437175 |
| base+rank_loss+trans-nl pretrain | 4498 | 440225 | 435711 |
| base+rank_loss+feedback2 pretrain | 4488 | 438583 | 435814 |
| base+feedback1 pseudo train only | 4469 | 438601 | 436144 |
| base+rank_loss+feedback1 pseudo pretrain | 4497 | 440576 | 435144 |
| base+feedback1 pseudo&feedback3 train | 4468 | 438063 | 434809 |
| base+rank_loss+feedback1 pseudo&feedback3 train | 4456 | 438084 |