概述

我的解决方案基于 NLP transformer 模型的集成，使用了不同的骨干网络、token 长度和外部数据集。我通常进行 4 折实验（按 document % 4 划分），并评估最后的检查点以找到最佳设置。为了集成，我使用相同的设置进行完整拟合训练。所有模型均使用 focal loss 进行训练。

建模

我的最终集成包含以下变体：

骨干网络：

Deberta-v3-large
Roberta-large

Token 长度和步长：

512（128 步长）
1024（256 步长）
2048（256 步长）

外部数据集：

mpware 的数据集（https://www.kaggle.com/competitions/pii-detection-removal-from-educational-data/discussion/477989）
nbroad 的数据集（https://www.kaggle.com/competitions/pii-detection-removal-from-educational-data/discussion/472221）

外部数据集与比赛数据合并后用于训练，未进行下采样。

不同折的训练稳定性各不相同，最终我想进行完整拟合训练（以在提交时间内获得更多多样性），因此专注于寻找在所有折上都稳定的设置。所有模型均使用 focal loss、AdamW 优化器和余弦学习率调度器进行训练。

后处理

为 O 设置阈值。该值基于 out‑of‑fold 预测进行优化。
为每个类别设置阈值（略有提升）

集成

从每个模型对应的 token 的第一次预测中获取 spaCy token 的预测，集成方式为简单平均。

代码

提交代码 https://www.kaggle.com/yukiokumura1/pii-019-021-034-037-038-pp GitHub https://github.com/okumura2997/kaggle-pii-solution

13th place solution

概述

建模

骨干网络：

Token 长度和步长：

外部数据集：

后处理

集成

代码

同比赛其他方案