593. LLM - Detect AI Generated Text | llm-detect-ai-generated-text
我的高效解决方案基于两个优秀的Kaggle笔记本:
我本次竞赛的独特之处在于为竞赛精心策划了高质量数据集。我尝试了多种先进的NLP/LLM模型、技术和技巧,但在公开榜上均未见成效。我的假设是:本次竞赛需要分布相似的数据集,例如社区共享的数据,特别是daigt-v2-train-dataset。
我深信拥有分布相似的高质量教育数据集至关重要,因此投入了大量时间寻找真正优秀的教育数据集,特别是各年级学生(1-13年级)撰写的文本。这一集体努力始于CommonLit Readability Prize竞赛。在该竞赛中,主办方使用了"kids.frontier.org"的部分摘录作为训练数据,这促使我开始探索这类数据的价值。令人惊讶的是,这是一个尚未展现真正潜力的优秀文章数据集。
"Frontiers for Young Minds"是一个专为儿童设计的开放获取科学期刊平台。该平台特色是科学家撰写文章,并由广泛的年轻人进行评审后方可发表。
杰出的科学家受邀用适合年轻读者理解的语言描述他们的发现,随后由孩子们在科学导师的帮助下提供反馈,向作者解释如何在发表前最好地改进文章。
它涵盖以下领域的科学期刊:1. 天文学与物理学,2. 生物多样性,3. 化学与材料,4. 地球科学,5. 工程与技术,6. 人类健康,7. 数学与经济学,8. 神经科学与心理学。
我从"kids.frontiersin.org"收集了约1000篇文章的原始文本。仅使用通过以下prompt2生成的最终文章/论文/期刊文本。原始文章仅作为参考,采用"知识共享署名许可(CC BY)"。
期刊文章示例:https://kids.frontiersin.org/articles/10.3389/frym.2023.1215124