第12名解决方案

排名：第11名 | 作者：chicm | 团队：zzy990106, berserker408, fankaixie

首先，我们感谢组织者举办这场精彩的比赛，这对我们来说是绝佳的学习机会。我们也感谢所有在比赛中分享想法和代码的Kagglers。感谢我的团队成员 @zzy990106、@berserker408、@fankaixie 的辛勤工作。

简而言之，我们的解决方案由多样化的上下文和模型组成。

RAG（检索增强生成）

上下文 #1：

构建维基百科英文faiss索引，将三种召回路径的前5个结果结合作为每个问题的上下文：

JJ (@jjinho) 分享的基于句子的开放书上下文

MB (@mbanaei) 分享的27万数据集，27万数据聚类并解析

使用MB构建27万数据集的notebook构建了48万数据集以覆盖更多文章。
27万数据集未覆盖全部154篇文章，我们调整了聚类参数以用48万数据覆盖所有文章。

Llama2 7B
我们使用LoRA训练Llama2 7B，对单个问题进行5次推理，使用512序列长度耗时3小时，Llama2模型为集成带来了0.003的提升。

我们训练了Deberta的多个检查点，在最终解决方案中，我们使用8个检查点来获取不同上下文。我们还观察到使用更好的上下文训练并未提升模型效果，因此我们选择了使用基于句子的上下文训练的检查点。