返回列表

12th place solution

573. Kaggle - LLM Science Exam | kaggle-llm-science-exam

开始: 2023-07-11 结束: 2023-10-10 自然语言处理 数据算法赛
第12名解决方案

第12名解决方案

排名:第11名 | 作者:chicm | 团队:zzy990106, berserker408, fankaixie

首先,我们感谢组织者举办这场精彩的比赛,这对我们来说是绝佳的学习机会。我们也感谢所有在比赛中分享想法和代码的Kagglers。感谢我的团队成员 @zzy990106@berserker408@fankaixie 的辛勤工作。

简而言之,我们的解决方案由多样化的上下文和模型组成。

RAG(检索增强生成)

上下文 #1:

构建维基百科英文faiss索引,将三种召回路径的前5个结果结合作为每个问题的上下文:

  • bge prompt + answer
  • gte prompt + answer
  • gte prompt

上下文 #2:

JJ (@jjinho) 分享的基于句子的开放书上下文

上下文 #3:

MB (@mbanaei) 分享的27万数据集,27万数据聚类并解析

上下文 #4:

使用MB构建27万数据集的notebook构建了48万数据集以覆盖更多文章。
27万数据集未覆盖全部154篇文章,我们调整了聚类参数以用48万数据覆盖所有文章。

模型

  • Deberta V3 large多项选择分类
    @cderotte 分享
  • Deberta V3 large一次性推理:
    将所有答案连接在一起,每个问题仅推理一次
    模型架构参考 此处
模型架构图
  • Llama2 7B
    我们使用LoRA训练Llama2 7B,对单个问题进行5次推理,使用512序列长度耗时3小时,Llama2模型为集成带来了0.003的提升。

我们训练了Deberta的多个检查点,在最终解决方案中,我们使用8个检查点来获取不同上下文。我们还观察到使用更好的上下文训练并未提升模型效果,因此我们选择了使用基于句子的上下文训练的检查点。

同比赛其他方案