604. The Learning Agency Lab - PII Data Detection | pii-detection-removal-from-educational-data
首先,我要感谢主办方和Kaggle工作人员组织了如此有趣的比赛。
我也非常感谢分享了许多宝贵资源(包括强大的外部数据集)的每个人。
最后,我要感谢我的队友 @yyykrk 和 @irrohas。得益于他们的出色想法,我们获得了金牌,我终于实现了梦寐以求的大师称号!
| 骨干网络 | 权重 | 额外数据集 | 类别数 | 类型(后处理前) | 分词器 | 其他细节 | CV/公开/私有 |
|---|---|---|---|---|---|---|---|
| deberta-v3-large | 0.182 | nbroad | 13 | 高召回率 | 默认 | 加权交叉熵(O的权重0.1) | 0.969/0.969/0.956 |
| deberta-xlarge | 0.073 | nbroad | 13 | 高召回率 | 默认 | 加权交叉熵(O的权重0.1) | 0.958/0.956/0.955 |
| deberta-xlarge | 0.073 | nbroad | 13 | 高召回率 | 默认 | 加权交叉熵(O的权重0.01) | 0.962/0.965/0.957 |
| longformer-base | 0.073 | nbroad | 13 | 高召回率 | 默认 | 加权交叉熵(O的权重0.1) | 0.959/0.959/0.951 |
| deberta-v3-large | 0.05 | mpware | 13 | 高精确率 | 添加"\n"和"\n\n"为特殊token | SmoothFocalLoss | 0.965/??/?? |
| deberta-v3-large | 0.1 | nbroad | 8 | 高精确率 | 添加"\n"和"\n\n"为特殊token | 加权交叉熵(O的权重0.05) | 0.965/0.972/0.958 |
| deberta-v3-large | 0.27 | nbroad | 8 | 高召回率 | 默认 | 排除所有负样本数据 | 0.966/0.974/0.957 |
| deberta-v3-large | 0.18 | nbroad | 8 | 高精确率 | 默认 | 包含所有负样本数据 | 0.965/??/?? |
※请仅将分数作为参考,因为每个模型使用的后处理方式不同。
我们构建了专注于8类分类的模型(或在集成中从13类转换为8类),原因如下:
至少在公开排行榜上,8类分类的表现优于13类分类。
Deberta-v3-large无法对"\n"进行分词,而STREET_ADDRESS包含"\n",因此我们在某些模型中添加"\n"和"\n\n"作为特殊token。
tokenizer.add_tokens(["\n", "\n\n"], special_tokens=True)
为了在集成中包含更多模型,我们采取了以下两项措施来加速处理过程:
通过这个过程,推理代码的速度提高了一倍多。(例如,DeBERTa v3 large的推理时间从约1小时减少到约30分钟。)
①将8类预测转换回13类预测之前的后处理:
②将8类预测转换回13类预测
③将8类预测转换回13类预测之后的后处理
我们删除以下预测: