第24名解决方案:DeBERTa与TF-IDF向量化器集成
第24名解决方案:DeBERTa与TF-IDF向量化器集成
感谢主办方举办这场比赛。我们获得了宝贵的经验,无疑将促进我们的成长。
以下是我们的简要解决方案。我们使用了DeBERTa模型与TF-IDF向量化器的集成方法。具体细节如下。
1. DeBERTa
配置
模型:DeBERTa-v3-large
训练轮数:5~6
训练时最大长度:256~300
推理时最大长度:512
数据
- 人类数据:30万+
- AI数据:30万+(包含通过ChatGPT3.5、4自行生成的数据)
- 使用了多样化的数据,不仅仅是'RDizzl3_seven'
- 排除了包含超过10个拼写错误的AI生成文本。使用Pyspellchecker进行拼写检查
- 交叉验证分割:分层K折 - 0.9:0.1
2. TF-IDF向量化器
特别感谢@datafan07提供的优秀公开笔记本!非常棒。
模型
MultinomialNB、SGDClassifier、LGBMClassifier
数据
- 来自@thedrcat的DAIGT-V3数据集,我们添加了通过ChatGPT3.5、4自行生成的数据
- [llama, ada, babbage, claude] -> 我们排除了这些数据,因为其中有很多拼写错误
- 使用了多样化的数据,不仅仅是'RDizzl3_seven'
- 排除了包含超过10个拼写错误的AI生成文本。使用Pyspellchecker进行拼写检查
集成
- TF-IDF向量化器:MultinomialNB x 1, SGDClassifier x 3, LGBMClassifier x 3
- Deberta x 4
- TF-IDF向量化器 : DeBERTa = 0.65:0.35
再次感谢比赛主办方和所有参与者!!祝大家下次比赛好运!
您可以通过以下链接查看我们的提交笔记本:
https://www.kaggle.com/code/kimseunghee/24th-place-notebook-public-0-966-private-0-927
团队成员
@danielchae
@kimseunghee