返回列表

37th place solution: Deberta voting ensemble

604. The Learning Agency Lab - PII Data Detection | pii-detection-removal-from-educational-data

开始: 2024-01-17 结束: 2024-04-23 数据安全与隐私 数据算法赛
第37名方案:Deberta投票集成

第37名方案:Deberta投票集成

作者:Rushali Grandhe

排名:第37名

发布日期:2024-04-24

首先非常感谢组织者举办本次比赛。同时感谢所有分享见解、数据和代码的成员。很高兴获得我的第一枚银牌!😄

方法

我的解决方案本质上是使用不同的数据子集训练的 Deberta‑v3‑large 模型集成。

正如该帖子中指出的,文章末尾存在 PII 数据,我使用了 return_overflowing_tokens、分词器的步长(stride)以及 wids 将每个标记映射到文章 tokens 数组中的对应文本。这样就不必担心过大的序列长度。我使用 max_length=512stride=128

我的验证集是从训练数据中取 fold%4==2 的样本。我选择它是因为它包含最多的类别标签,而且与公开排行榜(LB)有较好的相关性。我的训练子集是给定训练数据和外部数据集的混合,例如:

我参考此帖子,根据验证集性能找到了每个模型的最佳阈值。阈值处理后,我通过投票方式对 Deberta 模型进行集成。

代码链接

无效的尝试

  • 训练自定义生成的数据,类似于。也许更好的提示会产生效果😅
  • 训练/使用 Longformer、LLM 预测
  • 加权平均集成
  • 在损失函数中使用类别权重来处理类别不平衡
同比赛其他方案