604. The Learning Agency Lab - PII Data Detection | pii-detection-removal-from-educational-data
我的解决方案基于 NLP transformer 模型的集成,使用了不同的骨干网络、token 长度和外部数据集。我通常进行 4 折实验(按 document % 4 划分),并评估最后的检查点以找到最佳设置。为了集成,我使用相同的设置进行完整拟合训练。所有模型均使用 focal loss 进行训练。
我的最终集成包含以下变体:
外部数据集与比赛数据合并后用于训练,未进行下采样。
不同折的训练稳定性各不相同,最终我想进行完整拟合训练(以在提交时间内获得更多多样性),因此专注于寻找在所有折上都稳定的设置。所有模型均使用 focal loss、AdamW 优化器和余弦学习率调度器进行训练。
O 设置阈值。该值基于 out‑of‑fold 预测进行优化。从每个模型对应的 token 的第一次预测中获取 spaCy token 的预测,集成方式为简单平均。