573. Kaggle - LLM Science Exam | kaggle-llm-science-exam
首先,我们感谢组织者举办这场精彩的比赛,这对我们来说是绝佳的学习机会。我们也感谢所有在比赛中分享想法和代码的Kagglers。感谢我的团队成员 @zzy990106、@berserker408、@fankaixie 的辛勤工作。
简而言之,我们的解决方案由多样化的上下文和模型组成。
构建维基百科英文faiss索引,将三种召回路径的前5个结果结合作为每个问题的上下文:
JJ (@jjinho) 分享的基于句子的开放书上下文
MB (@mbanaei) 分享的27万数据集,27万数据聚类并解析
使用MB构建27万数据集的notebook构建了48万数据集以覆盖更多文章。
27万数据集未覆盖全部154篇文章,我们调整了聚类参数以用48万数据覆盖所有文章。
我们训练了Deberta的多个检查点,在最终解决方案中,我们使用8个检查点来获取不同上下文。我们还观察到使用更好的上下文训练并未提升模型效果,因此我们选择了使用基于句子的上下文训练的检查点。