604. The Learning Agency Lab - PII Data Detection | pii-detection-removal-from-educational-data
感谢比赛!我的解决方案很简单,没有使用新方法,但我想分享出来。
作为基线,我主要使用了下面的 Kaggle Notebook。感谢 @emiz6413!
https://www.kaggle.com/code/emiz6413/train-deberta-v3-single-model-lb-0-966
所有模型都使用了 DeBERTa‑v3‑large。我使用了训练集+MPWare 数据(仅使用 30% 的负样本)。
对于验证,我将训练数据按 document % 4 != 2 划分,验证数据为 document % 4 == 2。
我对训练数据进行了一些改动以实现集成:
我将某些词语(如 “Mr.”、“Dr.” …)或非首字母大写的缩写改为 “O”。