返回列表

7th Solution

574. CommonLit - Evaluate Student Summaries | commonlit-evaluate-student-summaries

开始: 2023-07-12 结束: 2023-10-11 智能评测 数据算法赛

第7名解决方案

作者: Ethan (Kaggle Grandmaster)
发布时间: 2023年10月12日

首先,感谢比赛主办方举办这场有趣的竞赛,也感谢我的队友 @emiria。我从emiria的想法和代码中学到了很多。祝贺emiria获得第四枚金牌,一位新的特级大师(GM)即将诞生。这也是我在NLP比赛中的第一枚金牌。

我们策略的关键点

  • 添加"prompt_text"作为输入(CV提升0.03)
  • 冻结层(CV提升0.01)
  • 使用不同的输入进行融合(CV提升0.01)
  • 与lightgbm结果融合(CV提升0.005)
  • 关注本地CV(LB仅占总数据的13%)

对我们无效的方法:

  • AWP
  • SWA
  • 文本预处理
  • MLM

模型

这是我们用于最终提交模型的描述。我们使用基于"prompt_id"的GroupKFold进行本地验证,并在推理时使用所有提示进行训练。

id 骨干网络 输入 最大长度 损失函数 CV
model1 deberta-v3-large text+sep+prompt_text+sep+prompt_question 1280 mseloss 0.500
model2 deberta-v3-large text+sep+prompt_title+sep+prompt_question+sep+prompt_text 1280 mseloss 0.489
model3 deberta-v3-large prompt_title+sep+prompt_question+sep+text+sep+prompt_text 1280 mseloss 0.506
model4 deberta-v3-large+lgb prompt_question+sep+text 512 mseloss 0.520
model5 deberta-v3-large text+sep+prompt_title+sep+prompt_question+sep+prompt_text 768 mseloss -
model6 deberta-v3-large text+sep+prompt_title+sep+prompt_question+sep+prompt_text 768 logloss -
model7 deberta-large text+sep+prompt_title+sep+prompt_question+sep+prompt_text 1024 mseloss -

结果

以下是我们的模型及其最佳分数:
每个模型是两个种子的平均值,除了"model4"(包含lightgbm)。

PB LB 是否选用 模型组合
0.456 0.427 0.32*model1+0.32*model2+0.16*model3+0.2*model7
0.453 0.428 0.32*model1+0.32*model2+0.16*model4+0.1*model5+0.1*model6
同比赛其他方案