573. Kaggle - LLM Science Exam | kaggle-llm-science-exam
大家好,这次比赛我以较大分差与个人金牌失之交臂,确实令人遗憾!这是一场激烈的竞赛!我不知道以后是否还有勇气再次为个人金牌如此拼搏。😅 昨天我分享了一个解决方案的概要。现在,我尽力以最详细和清晰的方式解释它。
在处理维基百科转储数据时,你会发现会面对大量的文章。将所有文章处理并转换为适合竞赛的格式是一个相当复杂的过程。我也通过处理我们所熟知的常见转储文件生成了所有文章。然而,我注意到在公开可用的开源转储提取器输出中,数学公式和某些维基百科LUA模板存在问题。
因此,我决定设计一个独立的流程来提取最原始的STEM相关文章。首先,我需要定位与STEM相关的文章。
在我的最终解决方案中,我使用了三种不同的原始数据源。
我将上述所有数据都通过了Unicode字符解码过程。然后,我使用3句子窗口、以1句子的步长创建了语料块。
我注意到不同的检索方法能提升预测性能。因此,我倾向于使用三种主要方法:
如上所述,我创建了四种不同的上下文来源。我只需在所有上下文上运行一个debertav3-large模型,并对概率进行最大集成。由于我使用的是单一模型,我发现最大集成非常有效。如果在任何一个上下文中找到与问题相关的文本,它都会显著提升相应答案的概率。如果找不到相关上下文,所有选项的概率都相似且相对较低。
我还在下面附上了我的解决方案的概要图。它可能能提供更清晰的理解:
