返回列表

[1st Place Efficiency Prize] Scientific Journal

593. LLM - Detect AI Generated Text | llm-detect-ai-generated-text

开始: 2023-10-31 结束: 2024-01-22 AI安全与对抗 数据算法赛
Kelvin - 效率一等奖解决方案

[效率一等奖] 科学期刊检测解决方案

作者: Kelvin (Kaggle Grandmaster)

发布时间: 2024-01-30

竞赛排名: 第40名

获奖情况: 效率一等奖

公开榜分数: 0.947061 | 私有榜分数: 0.91967

CPU推理时间: 17分钟

解决方案概述

我的高效解决方案基于两个优秀的Kaggle笔记本:

核心技术方案

  • 在"公开+私有"测试数据集上构建自定义字节对编码(BPE)分词器
  • 对分词后的测试集训练TFIDF向量化器
  • 在TFIDF向量基础上训练三个分类模型:MultinomialNB、SGDClassifier和LGBMClassifier
  • 使用VotingClassifier对上述三个模型进行集成
  • 外部数据:kids-frontier + daigt-v2-train-dataset (by @thedrcat)

独特方法与数据策展

我本次竞赛的独特之处在于为竞赛精心策划了高质量数据集。我尝试了多种先进的NLP/LLM模型、技术和技巧,但在公开榜上均未见成效。我的假设是:本次竞赛需要分布相似的数据集,例如社区共享的数据,特别是daigt-v2-train-dataset。

我深信拥有分布相似的高质量教育数据集至关重要,因此投入了大量时间寻找真正优秀的教育数据集,特别是各年级学生(1-13年级)撰写的文本。这一集体努力始于CommonLit Readability Prize竞赛。在该竞赛中,主办方使用了"kids.frontier.org"的部分摘录作为训练数据,这促使我开始探索这类数据的价值。令人惊讶的是,这是一个尚未展现真正潜力的优秀文章数据集。

外部数据集

  1. daigt-v2-train-dataset by @thedrcat
  2. Kids Frontier科学期刊
  3. Kids Frontier数据源

什么是Kids Frontier?

"Frontiers for Young Minds"是一个专为儿童设计的开放获取科学期刊平台。该平台特色是科学家撰写文章,并由广泛的年轻人进行评审后方可发表。

杰出的科学家受邀用适合年轻读者理解的语言描述他们的发现,随后由孩子们在科学导师的帮助下提供反馈,向作者解释如何在发表前最好地改进文章。

它涵盖以下领域的科学期刊:1. 天文学与物理学,2. 生物多样性,3. 化学与材料,4. 地球科学,5. 工程与技术,6. 人类健康,7. 数学与经济学,8. 神经科学与心理学。

数据生成方法

我从"kids.frontiersin.org"收集了约1000篇文章的原始文本。仅使用通过以下prompt2生成的最终文章/论文/期刊文本。原始文章仅作为参考,采用"知识共享署名许可(CC BY)"。

  • 使用gpt-3.5-turbo-1106 API生成最终文本,采用以下两个提示:
    • prompt1: "基于以下文本,可以提出哪些问题?生成至少40个不同的问题。\\n文本: {text}"
    • prompt2: "基于以下文章,以{grade_level}年级学生的身份总结问题'{question}',字数不超过500字。总结可以是完整的、不完整的或部分完整的。\\n文章: {article}" (生成了60k样本,仅使用30k进行训练)

期刊文章示例:https://kids.frontiersin.org/articles/10.3389/frym.2023.1215124

同比赛其他方案