12th Place Solution

574. CommonLit - Evaluate Student Summaries | commonlit-evaluate-student-summaries

开始: 2023-07-12 结束: 2023-10-11 智能评测数据算法赛

第12名解决方案

第12名解决方案

作者：htsbrer（MASTER）
发布日期：2023年10月15日

感谢组织如此有趣的比赛！在比赛最后阶段，我因担心排名下降而无法入睡，但最终很高兴能保持住金牌位置。

我想简要总结一下我的方法。

模型与结果

我最优的私有方案是长模型（使用prompt_text）和短模型（不使用prompt_text）的集成。前者用于评估文本摘要是否正确，后者用于评估句子结构和词汇质量的好坏。

长模型

使用prompt_text并设置较长的max_len对我非常有效。但推理时间很长（超过6小时），且无法与其他长模型集成。因此我使用池化层的输出来训练LightGBM模型以提高鲁棒性。

短模型

该模型主要基于一个非常棒的公开笔记本，主要修改如下：

将deberta-base改为deberta-v3-large
不进行文本清洗
移除prompt_length特征
修改"overlap"的定义
冻结deberta的前12层 / 不使用层集成

集成模型

我简单地采用（长模型 + 短模型）/ 2的方式进行集成。

对我无效的方法

文本清洗
除deberta-v3-large之外的其他骨干网络
MLM（掩码语言模型）
AWP（对抗性权重扰动）
使用ChatGPT进行数据增强
SVR、xgboost（作为lightgbm的替代方案）

谢谢。

同比赛其他方案

1st: A brief review of the competition experience (Detail solution is on the way)

2nd Place Solution

3rd place solution

4th place solution

5th place solution