24th solution: DeBERTa & TF-IDF Vectorizer Ensemble

593. LLM - Detect AI Generated Text | llm-detect-ai-generated-text

开始: 2023-10-31 结束: 2024-01-22 AI安全与对抗数据算法赛

第24名解决方案：DeBERTa与TF-IDF向量化器集成

第24名解决方案：DeBERTa与TF-IDF向量化器集成

排名： 第24名

作者： KimSeungHee

团队成员： KimSeungHee, Cotmd

发布时间： 2024-01-23

感谢主办方举办这场比赛。我们获得了宝贵的经验，无疑将促进我们的成长。

以下是我们的简要解决方案。我们使用了DeBERTa模型与TF-IDF向量化器的集成方法。具体细节如下。

1. DeBERTa

配置

模型：DeBERTa-v3-large
训练轮数：5~6
训练时最大长度：256~300
推理时最大长度：512

数据

人类数据：30万+
AI数据：30万+（包含通过ChatGPT3.5、4自行生成的数据）
使用了多样化的数据，不仅仅是'RDizzl3_seven'
排除了包含超过10个拼写错误的AI生成文本。使用Pyspellchecker进行拼写检查
交叉验证分割：分层K折 - 0.9:0.1

2. TF-IDF向量化器

特别感谢@datafan07提供的优秀公开笔记本！非常棒。

模型

MultinomialNB、SGDClassifier、LGBMClassifier

数据

来自@thedrcat的DAIGT-V3数据集，我们添加了通过ChatGPT3.5、4自行生成的数据
[llama, ada, babbage, claude] -> 我们排除了这些数据，因为其中有很多拼写错误
使用了多样化的数据，不仅仅是'RDizzl3_seven'
排除了包含超过10个拼写错误的AI生成文本。使用Pyspellchecker进行拼写检查

集成

TF-IDF向量化器：MultinomialNB x 1, SGDClassifier x 3, LGBMClassifier x 3
Deberta x 4
TF-IDF向量化器 : DeBERTa = 0.65:0.35

再次感谢比赛主办方和所有参与者！！祝大家下次比赛好运！

您可以通过以下链接查看我们的提交笔记本：
https://www.kaggle.com/code/kimseunghee/24th-place-notebook-public-0-966-private-0-927

团队成员

@danielchae
@kimseunghee

同比赛其他方案

Comprehensive 1st Place Write-Up

3rd place solution

[4th Place Solution] A Summary of Combined Arms Approach

5th place solution: 1.7 million training examples + domain adaptation

6nd place solution with code