返回列表

[Public 21th Private 7th Solution] 14 models in Ensemble and postprocessing

604. The Learning Agency Lab - PII Data Detection | pii-detection-removal-from-educational-data

开始: 2024-01-17 结束: 2024-04-23 数据安全与隐私 数据算法赛
公开第21名 私有第7名 解决方案 - 14模型集成与后处理

公开第21名 私有第7名 解决方案 - 14模型集成与后处理

作者:Mikhail Golubchik

团队:Mikhail Golubchik、wasjaip

发布日期:2024-04-24

比赛排名:公开第21名 / 私有第7名

首先,衷心感谢那些训练了出色模型的用户,感谢他们创建并公开分享了自己的 notebooks,并提供了宝贵的评论与洞见。

特别致谢

特别感谢 @emiz6413 的杰出 notebook 与模型,并提供了训练过程的详细说明。

集成 (Ensemble)

我们采用了大规模模型集成的方式:在提交的前三个小时,最佳模型对完整数据集进行预测;在剩余的约5.5小时内,其余模型仅对按 token 长度排序后较短的 2/3 数据进行预测。

我们假设 PII token 的数量与文本长度关系不大,而预测时间随文本长度增加。因此,对较短的文本使用更多模型可以提升效率,对较长的文本使用较少的模型以节约时间。

此外,针对不同类型的标签我们设置了不同的概率阈值。学生名字的阈值相对较低,而其他标签(如邮箱、电话等)的阈值相对较高。因为在训练数据中这些标签出现较少,若阈值过低会产生大量误报。

后处理 (Post-processing)

  • 学生名字必须满足首字母大写、后续字母小写的格式,即正则 r'^[A-Z][a-z]+$'
  • 对于单独出现的 “B-” 标签(后面没有对应的 “I-” 标签),我们删除了过短的标记,同时过滤掉不符合模式的电话号码、邮箱地址以及 B-ID_NUM 标记。例如,B-ID_NUM 必须至少包含两个连续数字且长度不少于 4 个字符。若 “B-” 后跟有 “I-”,则不进行这些额外过滤。
  • 对于地址,如果地址内部没有换行或其他标记,则为其中的 token 添加 PII 标签。

结论

感谢我的队友 @wasjaip。这是一段有趣的经历,也是一次很好的学习机会。

同比赛其他方案