返回列表

31th Place Solution

573. Kaggle - LLM Science Exam | kaggle-llm-science-exam

开始: 2023-07-11 结束: 2023-10-10 自然语言处理 数据算法赛

第31名解决方案

作者:suguuuuu | 团队成员:shuichiurabe
排名:第30名 | 投票数:18 | 发布日期:2023年10月11日

感谢主办方和参赛者,这场比赛对我来说非常有趣。

这是我第一次参加NLP比赛,对我来说是很好的学习经历。期待看到顶尖选手的解决方案。

团队成员

@shuichiurabe
同事!!

解决方案概述

推理流程

我们决定采用模型数量少、数据变化多的策略。在观察到270k数据集发布后LB分数显著提高后,我们猜测这种方法得到了验证。
推理流程图

模型

  • 我们使用60k数据集进行训练 cdeotte的讨论
  • 仅将最大长度更改为640,冻结18层,冻结嵌入层

做得不好的地方

  • 搜索相似文档
    • 训练Sentence Transformer
    • 替换Sentence Transformer
    • BM25方法
  • 关于答案预测
    • 增加数据量
    • 花费70美元购买自定义数据,但效果不佳

未能实现的事情

  • 搜索相似文档

    • 扩展数据源
    • 由于PC配置不足(需要超过200GB内存)而无法实现
  • 关于答案预测(续)

    • 软化标签
      • 希望当答案包含部分正确内容时能给予0.5的部分分数

参考之前的比赛

我们的大量实验来自之前的比赛

同比赛其他方案