593. LLM - Detect AI Generated Text | llm-detect-ai-generated-text
感谢主办方和所有Kagglers分享了出色的工作和想法!作为一名Kaggle新手,我非常幸运地在第一次比赛中就获得了银牌。虽然在试验过程中我没有取得很多突破性的原创工作,但我愿意分享我的最终提交和选择。
这是我的解决方案
1. 数据
@thedrcat 的出色 daigt-v2 数据集 和 @carlmcbrideellis 的 mistral-7b 数据集,其中排除了 提到的 @bianshengtao 的提示。
使用 @aerdem4 的 无监督方法 对一小部分测试数据进行伪标签生成,以进行数据增强。
2. 分词 & TF-IDF 向量化
我遵循了 @datafan07 在测试数据上训练BPE分词器的 通用流程,并选择了 @verracodeguacas 介绍的 SentencePiece分词器 用于最终提交。
3. 文本纠正
我看到了关于不同文本纠正库许可证的讨论,但我仍然不清楚使用这些工具的权限,因为主办方没有明确的声明。我的最终解决方案包括使用autocorrect(LGPL-3.0许可证)对测试数据进行文本纠正。但我也选择了一个没有任何文本纠正的版本提交,它在私有LB上仍然处于银牌区域,分数为0.923。
4. 用于TF-IDF特征的机器学习模型
MultiNomialNB + SGDClassifier(linearSVC) + LightGBM(GBDT) + LightGBM(DART with GOSS) + CatBoost
两个LightGBM树模型使用不同gamma的Focal损失。
5. 基于Transformer的模型
在截止日期前的最后几天,我添加了 @mustafakeser4 的 DistilRoBerta 到我的集成中,在公开LB上立即从0.962提升到0.965,这给了我很大的信心和动力。
6. 其他技巧
将TF-IDF的最大特征数固定为5M。
后处理方法 由 @hyunsoolee1010 提供。