返回列表

A kaggle newbie's 🥈23rd solution: Just follow-up excellent public works & ideas

593. LLM - Detect AI Generated Text | llm-detect-ai-generated-text

开始: 2023-10-31 结束: 2024-01-22 AI安全与对抗 数据算法赛

一个Kaggle新手的🥈23名解决方案:仅仅是跟进出色的公开工作和想法

作者: SprAut23333 | 发布时间: 2024年1月23日 | 投票数: 19 | 竞赛排名: 23

感谢主办方和所有Kagglers分享了出色的工作和想法!作为一名Kaggle新手,我非常幸运地在第一次比赛中就获得了银牌。虽然在试验过程中我没有取得很多突破性的原创工作,但我愿意分享我的最终提交和选择。

这是我的解决方案

解决方案详情

1. 数据

@thedrcat 的出色 daigt-v2 数据集@carlmcbrideellismistral-7b 数据集,其中排除了 提到的 @bianshengtao 的提示。

使用 @aerdem4无监督方法 对一小部分测试数据进行伪标签生成,以进行数据增强。

2. 分词 & TF-IDF 向量化

我遵循了 @datafan07 在测试数据上训练BPE分词器的 通用流程,并选择了 @verracodeguacas 介绍的 SentencePiece分词器 用于最终提交。

3. 文本纠正

我看到了关于不同文本纠正库许可证的讨论,但我仍然不清楚使用这些工具的权限,因为主办方没有明确的声明。我的最终解决方案包括使用autocorrect(LGPL-3.0许可证)对测试数据进行文本纠正。但我也选择了一个没有任何文本纠正的版本提交,它在私有LB上仍然处于银牌区域,分数为0.923。

4. 用于TF-IDF特征的机器学习模型

MultiNomialNB + SGDClassifier(linearSVC) + LightGBM(GBDT) + LightGBM(DART with GOSS) + CatBoost

两个LightGBM树模型使用不同gamma的Focal损失。

一些模型参数受到 @batprem慷慨分享 的启发。

5. 基于Transformer的模型

在截止日期前的最后几天,我添加了 @mustafakeser4DistilRoBerta 到我的集成中,在公开LB上立即从0.962提升到0.965,这给了我很大的信心和动力。

6. 其他技巧

将TF-IDF的最大特征数固定为5M。

后处理方法@hyunsoolee1010 提供。

同比赛其他方案