第35名解决方案

感谢组织这场具有挑战性的竞赛。尽管我们最终获得了一枚银牌，但从实验中学习到了很多。也感谢我的队友 @penpentled @shigeria @chaudharypriyanshu @takanashihumbert，这几个月来他们提供了很大的帮助。

1. 概述

我们提交的最佳私有方案是多个模型的集成，包括一个包含 prompt_text 的模型、三个 wording 模型，以及一个不含 prompt_text 的 content+lgbm 模型。推理时间约为 8 小时。

提交编号	类型	CV	LB	PB	说明
No.1	最佳 LB	0.4655	0.426	0.466	使用 prompt_text 的模型，训练时最大长度为 896，推理时为 1024
No.2	最佳 CV	0.463	0.427	0.467	将内容模型替换为蒸馏模型+LGBM
No.3	保守	0.476	0.439	0.484	仅使用不带 prompt_text 的模型

尽管我们有一个模型在 PB 上得分为 0.461，但由于其在 LB 上仅得分为 0.445，因此未选择该模型。它包含了由 @takanashihumbert 在 2 折上训练、在另外 2 折上验证的模型，以及使用 prompt_text 的基础模型。

提交的模型如下表所示。

ID	类型	训练最大长度	推理最大长度	文本清洗	CV	模型	是否包含 prompt_text
base	both	896	1024	公开方法	0.477	v3-large	✓
w2	wording	512	512	将复制的文本替换为 [PASSAGE]	0.556	v3-large
w4	wording	768	768	将复制的文本替换为 [PASSAGE]	0.559	v3-large
w6	wording	512	512	将复制的文本替换为 [PASSAGE] 和 [REFERENCE]	0.5561	v3-base
c1	content	1024	1024	公开方法	0.4445	v3-large
distill	content	1024	1024	使用 [PASSAGE] 和 [REFERENCE] 标记连接复制的文本	0.488	v3-base

我们使用 Optuna 和 Nelder-Mead 方法来优化集成，并使用了公开笔记本中为 LGBM 提取的特征。在集成时，我们力求同时提升 CV 和 LB 的表现。

最佳 PB 提交：https://www.kaggle.com/code/snorfyang/commonlit-exp-e6-shigeria1/notebook
文本清洗、集成方法、最终提交及其他笔记本可能稍后会发布。

最佳 PB 提交笔记本 https://www.kaggle.com/code/snorfyang/commonlit-exp-e6-shigeria1/notebook