21th place solution

574. CommonLit - Evaluate Student Summaries | commonlit-evaluate-student-summaries

开始: 2023-07-12 结束: 2023-10-11 智能评测数据算法赛

第21名解决方案

作者：tasck9（Kaggle专家）

首先，我要感谢主办方举办了这场非常有趣的竞赛。同时感谢kaggler通过笔记和讨论分享了许多有用的信息。

我在此分享我的解决方案。

概述

我的最终提交是两个deberta-v3-large模型和LightGBM的集成。流程如下：

解决方案流程图

模型

Deberta v3 large
- 输入文本 = text+prompt_question+prompt_text
- 最大长度 = 1024
- CLS标记
- 损失函数：RMSELoss
- 训练轮数 = 4

Deberta v3 base
- 输入文本 = prompt_title+len2text+prompt_question+text （※len2text：[参考]）
- 最大长度 = 512
- 注意力池化
- 损失函数：RMSELoss
- 训练轮数 = 4

LightGBM
- 基本与[公开笔记本]相同

关键点

以下两点显著提高了deberta模型的准确性：

分组层间学习率衰减（Grouped-LLRD）
冻结层（冻结靠近嵌入层的4层）[参考]

交叉验证

验证策略：GroupKFold（按prompt_id分组）

	39c16e	3b9047	ebad26	814d6b	cv	public	private
model1	0.4768	0.5045	0.4461	0.5842	0.4948	0.466	0.471
model2	0.4540	0.5154	0.4427	0.5830	0.4907
LGBM	0.4730	0.5802	0.4592	0.5809	0.5197	0.449	0.481

集成

加权平均：
- cv：0.4777
- Public LB：0.4351
- Private LB：0.46163

未奏效的方法

文本清洗
awp
fgm
svr
伪标签
其他方法…

CommonLit - Evaluate Student Summaries 竞赛页面 https://www.kaggle.com/competitions/commonlit-evaluate-student-summaries DebertaV3 + LGBM 参考笔记本 https://www.kaggle.com/code/tsunotsuno/debertav3-lgbm-no-autocorrect len2text 方法讨论 https://www.kaggle.com/competitions/commonlit-evaluate-student-summaries/discussion/437591

同比赛其他方案

1st: A brief review of the competition experience (Detail solution is on the way)

2nd Place Solution

3rd place solution

4th place solution

5th place solution