31th Place Solution

573. Kaggle - LLM Science Exam | kaggle-llm-science-exam

开始: 2023-07-11 结束: 2023-10-10 自然语言处理数据算法赛

第31名解决方案

作者：suguuuuu | 团队成员：shuichiurabe
排名：第30名 | 投票数：18 | 发布日期：2023年10月11日

我们的推理代码 https://www.kaggle.com/code/sugupoko/llm-31th-place-solution/notebook 70k数据集 https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/445438

感谢主办方和参赛者，这场比赛对我来说非常有趣。

这是我第一次参加NLP比赛，对我来说是很好的学习经历。期待看到顶尖选手的解决方案。

团队成员

@shuichiurabe
同事！！

解决方案概述

推理流程

我们决定采用模型数量少、数据变化多的策略。在观察到270k数据集发布后LB分数显著提高后，我们猜测这种方法得到了验证。
推理流程图

模型

我们使用60k数据集进行训练 cdeotte的讨论
仅将最大长度更改为640，冻结18层，冻结嵌入层

做得不好的地方

搜索相似文档
- 训练Sentence Transformer
- 替换Sentence Transformer
- BM25方法
关于答案预测
- 增加数据量
- 花费70美元购买自定义数据，但效果不佳

未能实现的事情

搜索相似文档
- 扩展数据源
- 由于PC配置不足（需要超过200GB内存）而无法实现
关于答案预测（续）
- 软化标签
  - 希望当答案包含部分正确内容时能给予0.5的部分分数

参考之前的比赛

我们的大量实验来自之前的比赛

同比赛其他方案

1st Place Solution

2nd Place Solution

3rd place solution [Update + Code links]

4th Place Solution

5th place solution: Llama 2 70B meets Sparse & Dense Retrievals from Own parsed wikipedia dataset