第三名解决方案

作者团队： NLP Team

竞赛排名： 第3名

发布日期： 2024年1月23日

非常感谢主办方举办这次比赛。

我们的解决方案是TF-IDF管道和12个DeBERTa-v3-large模型的加权平均。

Transformers集成模型

作为预处理步骤，我们使用了@sorokin分享的解混淆器（帖子），但仅纠正错误超过15个的文本。同时移除了原始训练集中不存在的符号，并对剩余符号的编码进行了归一化处理。

4个模型在11k精选生成/改写（文章级和句子级）/部分改写文章上训练；部分文章来自共享数据集，部分使用多个LLM自定义生成。我们通过以下算法选择训练样本：

使用@alejopaullier的数据集训练初始模型
每次迭代添加前序模型预测错误的样本 - 500个人工撰写和500个生成文本，选择距离真实标签最远的样本
训练新模型并重复该过程

我们每4次迭代评估一次LB分数。当LB停止提升时，我们采用前一个最佳数据集。在此数据上训练的最佳单模型获得了0.927公开分数和0.845私有分数。

受@jsday96帖子启发，我们为Pile和SlimPajama数据集生成续写文本。过滤掉过短/过长文本、包含代码或数学内容、非英语文本以及非字母/字母比例过高的文本。然后使用约35个不同开源模型配合不同参数组合。根据温度值将采样参数分为3种方案，并在各方案指定范围内随机设置top_p/min_p和presence_penalty/frequency_penalty。我们使用50万、100万和120万样本训练了3个模型。所有模型使用默认超参数，最大长度256（推理时1512），大批尺寸48。使用约100万样本训练的最佳单模型获得0.956公开分数和0.967私有分数。

我们还在选定的11k数据集上微调了5个模型（权重来自50万+样本训练的模型）。这些模型的公开LB分数略高，但私有分数降低了约0.005。

TF-IDF管道

我们采用了一个早期公开笔记（链接）并做了若干调整：

将CatBoost和LightGBM迭代次数增加250次，投票分类器使用权重[0.05, 0.225, 0.225, 0.5]
向@thedrcat的数据集添加1k测试集伪标签 - 仅包含transformers集成最确信（概率低于0.01或高于0.99）的样本

这些改进使公开分数保持不变，私有分数从0.893提升至0.927。由于存在一定不确定性，我们同时选择了初始管道和调整后的管道，它们的私有分数分别为0.970和0.974。

最终集成

我们采用两步加权平均集成概率：

首先，对transformers预测概率低于0.1或高于0.9的样本，加权TF-IDF和11k数据集训练的模型；中间范围样本仅使用TF-IDF概率
然后，对第一步结果和大规模数据集训练的模型无条件进行加权平均

这种集成方式同时提升了私有/公开LB分数和本地CV（尽管本地CV不可靠）。

后处理

对于每个prompt_id，若样本数超过1000，我们在TF-IDF上拟合UMAP（与TF-IDF-CatBoost管道相同，但按prompt分别处理），计算到7个最近人工撰写和7个生成样本的距离，并按human_distance/generated_distance比例缩放预测值，限制在(0.9, 1.1)范围内。这轻微提升了公开和私有LB分数。

致谢

感谢所有分享想法/假设/数据集的参与者。特别感谢@evilpsycho42在比赛期间的出色工作。

推理代码 https://www.kaggle.com/code/evgeniimaslov2/llm-daig-3rd-place-solution 训练代码 https://www.kaggle.com/datasets/evgeniimaslov2/llm-daig-src-code

3rd place solution

第三名解决方案

Transformers集成模型

TF-IDF管道

最终集成

后处理

致谢

同比赛其他方案