返回列表

12th Place Solution

574. CommonLit - Evaluate Student Summaries | commonlit-evaluate-student-summaries

开始: 2023-07-12 结束: 2023-10-11 智能评测 数据算法赛
第12名解决方案

第12名解决方案

作者:htsbrer(MASTER)
发布日期:2023年10月15日

感谢组织如此有趣的比赛!在比赛最后阶段,我因担心排名下降而无法入睡,但最终很高兴能保持住金牌位置。

我想简要总结一下我的方法。

模型与结果

我最优的私有方案是长模型(使用prompt_text)和短模型(不使用prompt_text)的集成。前者用于评估文本摘要是否正确,后者用于评估句子结构和词汇质量的好坏。

长模型

使用prompt_text并设置较长的max_len对我非常有效。但推理时间很长(超过6小时),且无法与其他长模型集成。因此我使用池化层的输出来训练LightGBM模型以提高鲁棒性。

短模型

该模型主要基于一个非常棒的公开笔记本,主要修改如下:

  • 将deberta-base改为deberta-v3-large
  • 不进行文本清洗
  • 移除prompt_length特征
  • 修改"overlap"的定义
  • 冻结deberta的前12层 / 不使用层集成

集成模型

我简单地采用(长模型 + 短模型)/ 2的方式进行集成。

对我无效的方法

  • 文本清洗
  • 除deberta-v3-large之外的其他骨干网络
  • MLM(掩码语言模型)
  • AWP(对抗性权重扰动)
  • 使用ChatGPT进行数据增强
  • SVR、xgboost(作为lightgbm的替代方案)

谢谢。

同比赛其他方案