573. Kaggle - LLM Science Exam | kaggle-llm-science-exam
太令人惊讶了!但我们仍然失去了10000美元的奖金。看起来是过拟合了。从公开榜前三名跌到私有榜第十五名。
说实话,我们把全部注意力都放在了RAG上,只用2个DeBERTa来做多选题。所以过拟合问题可能出在DeBERTa上(不像其他人的LLM-7B)。
我的英语不太好,所以有些内容是用翻译软件从中文翻译过来的。🤣🤣🤣🤣
我们有一个5路召回策略。它可以分为两部分:句子模型或TFIDF。

我们使用SimCSE结合SFT来训练句子模型,这使我们LB分数提高了0.015。特别地,我们使用了一种叫做困难样本对比学习的技巧。 我们先训练SimCSE,然后用这个模型对训练数据集进行推理。这样会产生Top5召回,然后将Top4(除了真实答案)作为负标签放入SimCSE损失中。这将为我们的模型提供更强的文本表示能力。相比普通的SimCSE,这给我们的模型带来了额外的0.005 LB提升。
请注意,我们使用的所有句子模型都是通过SimCSE训练的
就像开源笔记本一样。特别地,我们对TFIDF进行了加速,只用了20分钟。
特别是,我们发现句子模型无法编码维基百科文章的所有文本,而TFIDF、BM25或LGBRanker是几种有效的补充方案,因为它们可以编码任意长度的文本。
有趣的是,我们将数据集切片成多个索引,然后分别召回,再根据search_score排序以获取Top5。这解决了Faiss占用内存过多的问题。🤣🤣🤣🤣🤣🤣
这是一场讨论竞赛!
这是一场竞争非常激烈的比赛。但也有很多优秀的开源工作彻底改变了比赛格局。MB的27万数据集无疑是一项出色的工作,但它也完全在后半段颠覆了游戏规则。在那之后,所有技巧都可以在讨论区找到。
这是第一个我认真参与的Kaggle比赛,感谢我的队友们和组织者,也感谢大家的开源工作!
生活充满惊喜!