Kelvin - 效率一等奖解决方案

[效率一等奖] 科学期刊检测解决方案

作者： Kelvin (Kaggle Grandmaster)

发布时间： 2024-01-30

竞赛排名： 第40名

获奖情况： 效率一等奖

公开榜分数： 0.947061 | 私有榜分数： 0.91967

CPU推理时间： 17分钟

解决方案概述

我的高效解决方案基于两个优秀的Kaggle笔记本：

Train Your Own Tokenizer by @datafan07
LLM DAIGT Sub by @siddhvr

核心技术方案

在"公开+私有"测试数据集上构建自定义字节对编码(BPE)分词器
对分词后的测试集训练TFIDF向量化器
在TFIDF向量基础上训练三个分类模型：MultinomialNB、SGDClassifier和LGBMClassifier
使用VotingClassifier对上述三个模型进行集成
外部数据：kids-frontier + daigt-v2-train-dataset (by @thedrcat)

独特方法与数据策展

我本次竞赛的独特之处在于为竞赛精心策划了高质量数据集。我尝试了多种先进的NLP/LLM模型、技术和技巧，但在公开榜上均未见成效。我的假设是：本次竞赛需要分布相似的数据集，例如社区共享的数据，特别是daigt-v2-train-dataset。

我深信拥有分布相似的高质量教育数据集至关重要，因此投入了大量时间寻找真正优秀的教育数据集，特别是各年级学生（1-13年级）撰写的文本。这一集体努力始于CommonLit Readability Prize竞赛。在该竞赛中，主办方使用了"kids.frontier.org"的部分摘录作为训练数据，这促使我开始探索这类数据的价值。令人惊讶的是，这是一个尚未展现真正潜力的优秀文章数据集。

外部数据集

什么是Kids Frontier？

"Frontiers for Young Minds"是一个专为儿童设计的开放获取科学期刊平台。该平台特色是科学家撰写文章，并由广泛的年轻人进行评审后方可发表。

杰出的科学家受邀用适合年轻读者理解的语言描述他们的发现，随后由孩子们在科学导师的帮助下提供反馈，向作者解释如何在发表前最好地改进文章。

它涵盖以下领域的科学期刊：1. 天文学与物理学，2. 生物多样性，3. 化学与材料，4. 地球科学，5. 工程与技术，6. 人类健康，7. 数学与经济学，8. 神经科学与心理学。

数据生成方法

我从"kids.frontiersin.org"收集了约1000篇文章的原始文本。仅使用通过以下prompt2生成的最终文章/论文/期刊文本。原始文章仅作为参考，采用"知识共享署名许可(CC BY)"。

使用gpt-3.5-turbo-1106 API生成最终文本，采用以下两个提示：
- prompt1: "基于以下文本，可以提出哪些问题？生成至少40个不同的问题。\\n文本: {text}"
- prompt2: "基于以下文章，以{grade_level}年级学生的身份总结问题'{question}'，字数不超过500字。总结可以是完整的、不完整的或部分完整的。\\n文章: {article}" (生成了60k样本，仅使用30k进行训练)

期刊文章示例：https://kids.frontiersin.org/articles/10.3389/frym.2023.1215124

参考资源

Train Your Own Tokenizer https://www.kaggle.com/code/datafan07/train-your-own-tokenizer DAIGT V2 Train Dataset https://www.kaggle.com/datasets/thedrcat/daigt-v2-train-dataset LLM DAIGT Sub https://www.kaggle.com/code/siddhvr/llm-daigt-sub Kids Frontiers https://kids.frontiersin.org/ Frontiers for Young Minds教育应用 https://www.frontiersin.org/news/2017/07/05/frontiers-for-young-minds-using-frontiers-for-young-minds-articles-in-your-classroom/ 完整代码 https://www.kaggle.com/code/xyzdivergence/llm-daigt-sub/notebook?scriptVersionId=153307051

[1st Place Efficiency Prize] Scientific Journal