作者： takaito (MASTER)
排名： 第14名
发布时间： 2024-01-23

第14名解决方案

多年来，我一直努力争取获得 Solo Gold。
这一次，我非常高兴能够达到 Solo Gold，并想对沿途给予我帮助的许多讨论和笔记表达感谢。
谢谢。

很抱歉只准备了一个简单的解决方案，但我还是想简要地分享给大家。

第14名解决方案

我的方案基于以下笔记。
LLM DAIGT Analyse edge cases
（特别感谢）

虽然有一些小调整，但我主要做出了两点重要贡献：

roberta-large-openai-detector [1]
伪标签（Pseudo-Label）

这些改进对整体方案起到了关键作用。

roberta-large-openai-detector

我认为添加基于 BERT 模型的分类方法，对于将我的方案与仅基于词频的方法区分开来至关重要。

在多次实验中，该模型在不进行调优的情况下在排行榜上取得了 0.813 的分数。（私有分数 → 0.839）

我尝试了多种调优技术，但遗憾的是无法有效控制过拟合。

因此，我将未经调优的输出作为特征添加到我的模型中。

由于模型对输入标记数量有限制，我采用了前 512 个标记和后 512 个标记，分别获得两组预测结果。

LLM DAIGT Analyse edge cases

我使用这些 BERT 预测结果以及公开笔记中的词频特征，独立训练了 LightGBM 和 XGBoost 模型。

虽然每个单独模型的排行榜分数均低于公开笔记中的分数，但将其与公开笔记的预测结果进行集成后，排行榜分数得到了提升。（排行榜分数 0.965，私有分数 0.930）

伪标签（Pseudo-Label）

考虑到较高的排行榜分数以及训练过程中存在的过拟合倾向，我认为伪标签技术是有效的。

我从第一阶段的预测结果中选取了置信度较高的输出。

BERT 模型的输出在预测自动生成文本（标签为 1）方面表现优异，考虑到训练数据中自动生成示例（标签为 1）数量有限，我选取了标签 1 的前 10% 和标签 0 的前 7.5%。

此外，为避免对特定主题产生偏向，我基于 prompt_id 分配伪标签。

虽然还存在许多小的优化，但这两种贡献尤其起到了显著作用。
（例如：调整训练权重、过滤噪声数据、减少特征数量以加快处理速度等…）

[1] Solaiman, I., Brundage, M., Clark, J., Askell, A., Herbert-Voss, A., Wu, J., … & Wang, J. (2019). Release strategies and the social impacts of language models. arXiv preprint arXiv:1908.09203.

14th Place Solution

第14名解决方案

第14名解决方案

roberta-large-openai-detector

伪标签（Pseudo-Label）

同比赛其他方案