感谢 Kaggle 和 Learning Agency Lab 主办本次挑战赛。我们非常享受这次比赛,并在过去的三个月中收获颇丰。同时也感谢所有贡献想法和数据集的朋友们。
我们的解决方案由两个主要部分组成:一个基于 TFIDF 的流水线,它在 TFIDF 特征之上使用了多个分类器;另一个是基于 BERT 的流水线,用于区分人类撰写文本和生成的文本。
我们认为本解决方案的创新之处包括:
- 精心筛选的数据集,涵盖多样化的提示和不同规模的模型,样本数量从约 20 万到约 70 万不等。
- 基于统计和逆向工程的去混淆流水线。(公共榜提升 +0.006 / 私有榜提升 -0.001)
- 基于聚类的后处理(~0.001)
TFIDF 流水线与许多公开笔记本中使用的类似,但显著的区别在于我们采用了一种基于逆向工程的方法来修正系统性的拼写错误。关于去混淆处理的详细方法将在单独的笔记本中发布。我们的 TFIDF 流水线还包含一个后处理环节,我们观察到当两段文本的相似度足够高时,它们几乎总是由大型语言模型(LLM)生成的。
我们的 BERT 流水线包含 2 个 deberta_v3_large 模型和 1 个 roberta 模型。每个模型都在不同但高度重叠的多样化数据集版本上进行训练。这些数据集由大量不同规模(70亿至700亿参数)的开源大语言模型以及商业大语言模型生成,并涵盖了广泛的温度和 top_p 取值。生成的文本来自作文生成、改写和文本补全等提示任务。人类文本则从学生作文和开源网页文本中筛选而来。每个数据集版本共包含 25 万至 70 万个样本。最佳的单一 BERT 分类器在公共榜单上达到 0.96 的得分,在私有榜单上达到 0.915 的得分。