返回列表

13th place solution

604. The Learning Agency Lab - PII Data Detection | pii-detection-removal-from-educational-data

开始: 2024-01-17 结束: 2024-04-23 数据安全与隐私 数据算法赛
第13名解决方案

作者:Yuki Okumura

比赛排名:第13名

概述

我的解决方案基于 NLP transformer 模型的集成,使用了不同的骨干网络、token 长度和外部数据集。我通常进行 4 折实验(按 document % 4 划分),并评估最后的检查点以找到最佳设置。为了集成,我使用相同的设置进行完整拟合训练。所有模型均使用 focal loss 进行训练。

建模

我的最终集成包含以下变体:

骨干网络:

  • Deberta-v3-large
  • Roberta-large

Token 长度和步长:

  • 512(128 步长)
  • 1024(256 步长)
  • 2048(256 步长)

外部数据集:

外部数据集与比赛数据合并后用于训练,未进行下采样。

不同折的训练稳定性各不相同,最终我想进行完整拟合训练(以在提交时间内获得更多多样性),因此专注于寻找在所有折上都稳定的设置。所有模型均使用 focal loss、AdamW 优化器和余弦学习率调度器进行训练。

后处理

  • O 设置阈值。该值基于 out‑of‑fold 预测进行优化。
  • 为每个类别设置阈值(略有提升)

集成

从每个模型对应的 token 的第一次预测中获取 spaCy token 的预测,集成方式为简单平均。

代码

同比赛其他方案