解决方案概要

添加prompt_text特征后，本地验证分数显著提升。实验发现测试集中的prompt_text非常长（超过4000字符），因此将最大长度设置为5000，这是本方案的关键点
采用加权集成策略：deberta-v3-large + LightGBM = 7:3

解决方案架构图

1. 验证策略

输入处理：
- 输入格式：answer: 摘要文本 [SEP] title: 标题 | question: 问题 | text: 完整文本
- 分词器最大长度：5000
- 未进行文本清洗
模型配置：
- 预训练模型：microsoft/deberta-v3-large
- 冻结前18层参数
- 使用CLS token作为输出头
- 位置编码最大长度扩展至5000
训练参数：
- 损失函数：SmoothL1Loss
- 优化器：Adam
- 批大小：2
- 训练轮数：10
- 学习率调度：余弦退火
预测配置：
- 最大token数：5000
- 批大小：1
- 仅使用2折（4折会导致超时）

添加prompt_text特征显著提升了本地验证分数，处理测试数据的长文本能力同样关键。虽然该提交未达奖牌线，但因本地分数可靠而被选为最终提交，对此决定感到满意。遗憾之处在于仅在竞赛结束前两天意识到文本长度问题，未能及时尝试4折模型。

感谢您的阅读。

竞赛主页 CommonLit - Evaluate Student Summaries 作者主页 Kaggle Master - Moro