20th Place (Top 1%, Solo Silver) Solution

573. Kaggle - LLM Science Exam | kaggle-llm-science-exam

开始: 2023-07-11 结束: 2023-10-10 自然语言处理数据算法赛

第20名（前1%，单人银牌）解决方案

作者：william.wu (MASTER)
发布时间：2023-10-18 22:22:04

首先，我要向主办方和Kaggle团队表示衷心的感谢，感谢他们组织了这场精彩的比赛。同时，也要向所有参赛者致以最诚挚的敬意，感谢你们经历了这场激烈的竞争。这是一场极具教育意义和令人兴奋的比赛。

由于我的解决方案与顶尖团队非常相似，而且最近比较忙，所以我直到被kaggleqrdl在讨论中提及才着手撰写这份总结。是时候花点时间来完成这份总结了。感谢kaggleqrdl在比赛中记得我 :)

我的最终解决方案非常简单，由4个RAG模型和1个deberta-v3-large模型集成：

llm-solution

如果将平均集成改为最大+平均集成，可以提升到0.917。请参考我的提交代码

对我无效的方法

在RACE上进行预微调
在比赛接近尾声时，我尝试在RACE数据集上预微调模型，然后以较小的学习率在60k数据集上进行微调，但并没有提升CV和LB分数。

特别感谢

cdeotte, mbanaei, 和 yalickj 提供了宝贵的数据集。
ksmcg90 提供了使用pyarrow更快加载数据的方法（参考他的notebook）
itsuki9180 提供了使用deepspeed训练的解决方案（参考他的notebook）。我在8张RTX4090上训练了deberta-v3-large，速度提升惊人 :)
datafan07 提供了一种使用RewardTrainer微调LLM进行序列分类的方法（参考这个notebook）
以及所有分享他们宝贵解决方案的团队。我需要再花一个周末来学习所有这些技术 :)

同比赛其他方案

1st Place Solution

2nd Place Solution

3rd place solution [Update + Code links]

4th Place Solution

5th place solution: Llama 2 70B meets Sparse & Dense Retrievals from Own parsed wikipedia dataset