返回列表

24th solution: DeBERTa & TF-IDF Vectorizer Ensemble

593. LLM - Detect AI Generated Text | llm-detect-ai-generated-text

开始: 2023-10-31 结束: 2024-01-22 AI安全与对抗 数据算法赛
第24名解决方案:DeBERTa与TF-IDF向量化器集成

第24名解决方案:DeBERTa与TF-IDF向量化器集成

排名: 第24名

作者: KimSeungHee

团队成员: KimSeungHee, Cotmd

发布时间: 2024-01-23

感谢主办方举办这场比赛。我们获得了宝贵的经验,无疑将促进我们的成长。

以下是我们的简要解决方案。我们使用了DeBERTa模型与TF-IDF向量化器的集成方法。具体细节如下。

1. DeBERTa

配置

模型:DeBERTa-v3-large
训练轮数:5~6
训练时最大长度:256~300
推理时最大长度:512

数据

  • 人类数据:30万+
  • AI数据:30万+(包含通过ChatGPT3.5、4自行生成的数据)
  • 使用了多样化的数据,不仅仅是'RDizzl3_seven'
  • 排除了包含超过10个拼写错误的AI生成文本。使用Pyspellchecker进行拼写检查
  • 交叉验证分割:分层K折 - 0.9:0.1

2. TF-IDF向量化器

特别感谢@datafan07提供的优秀公开笔记本!非常棒。

模型

MultinomialNB、SGDClassifier、LGBMClassifier

数据

  • 来自@thedrcat的DAIGT-V3数据集,我们添加了通过ChatGPT3.5、4自行生成的数据
  • [llama, ada, babbage, claude] -> 我们排除了这些数据,因为其中有很多拼写错误
  • 使用了多样化的数据,不仅仅是'RDizzl3_seven'
  • 排除了包含超过10个拼写错误的AI生成文本。使用Pyspellchecker进行拼写检查

集成

  • TF-IDF向量化器:MultinomialNB x 1, SGDClassifier x 3, LGBMClassifier x 3
  • Deberta x 4
  • TF-IDF向量化器 : DeBERTa = 0.65:0.35

再次感谢比赛主办方和所有参与者!!祝大家下次比赛好运!

您可以通过以下链接查看我们的提交笔记本:
https://www.kaggle.com/code/kimseunghee/24th-place-notebook-public-0-966-private-0-927

团队成员

@danielchae
@kimseunghee

同比赛其他方案