[Public 21th Private 7th Solution] 14 models in Ensemble and postprocessing

公开第21名私有第7名解决方案 - 14模型集成与后处理

作者：Mikhail Golubchik

团队：Mikhail Golubchik、wasjaip

发布日期：2024-04-24

比赛排名：公开第21名 / 私有第7名

首先，衷心感谢那些训练了出色模型的用户，感谢他们创建并公开分享了自己的 notebooks，并提供了宝贵的评论与洞见。

笔记本链接 mikhailgolubchik/fork-of-the-lalab-pii-data 数据集：PII DeBERTa 模型 verracodeguacas/pii-deberta-models 数据集：emiz6413 37vp4pjt emiz6413/37vp4pjt 数据集：PII 模型集合 startalks/pii-models

特别致谢

特别感谢 @emiz6413 的杰出 notebook 与模型，并提供了训练过程的详细说明。

我们采用了大规模模型集成的方式：在提交的前三个小时，最佳模型对完整数据集进行预测；在剩余的约5.5小时内，其余模型仅对按 token 长度排序后较短的 2/3 数据进行预测。

我们假设 PII token 的数量与文本长度关系不大，而预测时间随文本长度增加。因此，对较短的文本使用更多模型可以提升效率，对较长的文本使用较少的模型以节约时间。

此外，针对不同类型的标签我们设置了不同的概率阈值。学生名字的阈值相对较低，而其他标签（如邮箱、电话等）的阈值相对较高。因为在训练数据中这些标签出现较少，若阈值过低会产生大量误报。

学生名字必须满足首字母大写、后续字母小写的格式，即正则 r'^[A-Z][a-z]+$'。
对于单独出现的 “B-” 标签（后面没有对应的 “I-” 标签），我们删除了过短的标记，同时过滤掉不符合模式的电话号码、邮箱地址以及 B-ID_NUM 标记。例如，B-ID_NUM 必须至少包含两个连续数字且长度不少于 4 个字符。若 “B-” 后跟有 “I-”，则不进行这些额外过滤。
对于地址，如果地址内部没有换行或其他标记，则为其中的 token 添加 PII 标签。

感谢我的队友 @wasjaip。这是一段有趣的经历，也是一次很好的学习机会。