604. The Learning Agency Lab - PII Data Detection | pii-detection-removal-from-educational-data
首先,衷心感谢那些训练了出色模型的用户,感谢他们创建并公开分享了自己的 notebooks,并提供了宝贵的评论与洞见。
特别感谢 @emiz6413 的杰出 notebook 与模型,并提供了训练过程的详细说明。
我们采用了大规模模型集成的方式:在提交的前三个小时,最佳模型对完整数据集进行预测;在剩余的约5.5小时内,其余模型仅对按 token 长度排序后较短的 2/3 数据进行预测。
我们假设 PII token 的数量与文本长度关系不大,而预测时间随文本长度增加。因此,对较短的文本使用更多模型可以提升效率,对较长的文本使用较少的模型以节约时间。
此外,针对不同类型的标签我们设置了不同的概率阈值。学生名字的阈值相对较低,而其他标签(如邮箱、电话等)的阈值相对较高。因为在训练数据中这些标签出现较少,若阈值过低会产生大量误报。
r'^[A-Z][a-z]+$'。感谢我的队友 @wasjaip。这是一段有趣的经历,也是一次很好的学习机会。