37th place solution: Deberta voting ensemble

第37名方案：Deberta投票集成

作者：Rushali Grandhe

排名：第37名

发布日期：2024-04-24

首先非常感谢组织者举办本次比赛。同时感谢所有分享见解、数据和代码的成员。很高兴获得我的第一枚银牌！😄

方法

我的解决方案本质上是使用不同的数据子集训练的 Deberta‑v3‑large 模型集成。

正如该帖子中指出的，文章末尾存在 PII 数据，我使用了 return_overflowing_tokens、分词器的步长（stride）以及 wids 将每个标记映射到文章 tokens 数组中的对应文本。这样就不必担心过大的序列长度。我使用 max_length=512，stride=128。

我的验证集是从训练数据中取 fold%4==2 的样本。我选择它是因为它包含最多的类别标签，而且与公开排行榜（LB）有较好的相关性。我的训练子集是给定训练数据和外部数据集的混合，例如：

Nicholas 数据 + 训练数据 folds%4=(0,1,3)
Mpware 数据 + 训练数据 folds%4=(0,1,3)
1850 mistral + 训练数据 folds%4=(0,1,3)
2k mistral + 训练数据 folds%4=(0,1,3)

我参考此帖子，根据验证集性能找到了每个模型的最佳阈值。阈值处理后，我通过投票方式对 Deberta 模型进行集成。

代码链接

训练代码 https://github.com/rush2406/pii-detection/blob/main/train.py 推理代码 https://github.com/rush2406/pii-detection/blob/main/inference.py

无效的尝试

训练自定义生成的数据，类似于此。也许更好的提示会产生效果😅
训练/使用 Longformer、LLM 预测
加权平均集成
在损失函数中使用类别权重来处理类别不平衡

第37名方案：Deberta投票集成

方法

代码链接

无效的尝试

同比赛其他方案