返回列表

5th Place Solution

615. Learning Agency Lab - Automated Essay Scoring 2.0 | learning-agency-lab-automated-essay-scoring-2

开始: 2024-04-03 结束: 2024-07-02 智能评测 数据算法赛
第五名解决方案

第五名解决方案

作者: heng (Grandmaster)
队友: hookman, sayoulala
发布时间: 2024-07-04
竞赛排名: 第 5 名

非常感谢 Kaggle 及主办方组织这场精彩的比赛。

虽然结果有点意外,但我们最终在这次比赛中获得了相对理想的成绩:LB 第 3 名 / PB 第 5 名。

在此,我要感谢我的队友 @hookman@sayoulala 的付出,以及社区中许多高质量的 Notebook 和大家在讨论中提供的线索,如下所示:

昨天我研究了社区中分享的解决方案,发现我们的方案确实有一些共同点。我们很幸运,分数没有下滑太多。

我们的做法

  1. 使用 StratifiedKFold 将仅限 Kaggle 的数据(5 个提示)划分为 kaggle-only-train 和 kaggle-only-valid。
  2. 在 persuade2.0 数据(7 个提示)+ kaggle-only-train 上微调(非 MLM)deberta 模型(small/base/large)。
  3. 加载上一步的权重,在 kaggle-only-train 上训练,并在 kaggle-only-valid 上验证。
  4. 与 LGB 混合(直接 fork 了最佳 LB Notebook),deberta 模型权重 0.9,LGB 权重 0.1,得分 PB 0.837,LB 0.827。

Deberta CV / LB / PB 分数

CV LB PB
0.80495 0.81420 0.81961
0.80872 0.81441 0.81972
0.81530 0.82429 0.83495
0.81798 0.82037 0.83211
0.81945 0.82288 0.83403

混合策略

权重 LB PB
0.80:0.20 0.82670 0.84013
0.85:0.15 0.82829 0.83924
0.90:0.10 0.82763 0.83743
同比赛其他方案