返回列表

5th solution: prompt is all you need

496. U.S. Patent Phrase to Phrase Matching | us-patent-phrase-to-phrase-matching

开始: 2022-03-21 结束: 2022-06-20 自然语言处理 数据算法赛
第5名方案:提示词即所需

摘要

在本次比赛中,我的主要模型结构基于提示学习。因为提示学习能够更充分地利用模型的现有知识进行推理,并且在少样本学习中具有明显优势,我曾利用提示学习在 SEMEVAL 2022 PCL Detection 比赛中获得了第一名。我首先将任务重构为一种特定形式的完形填空提示,然后在此基础上应用提示学习来预测标签词的置信度。

方法

提示学习

PET模型示意图

为了让模型能够直接输出锚点和目标之间的相似度,我改进了 PET 论文中的模型。我手动将“YES”设置为标签1对应的词,然后提取模型在该词上的 logits 作为输入,并使用 BCE Loss 进行计算,使“YES”的 logits 等于相似度。

在实验中,我们发现提示模型的效果比常规模型高出 0.005。

方法 CV 分数 LB 分数
attention_pool 0.8485 0.8535
prompt 0.8535 0.8570

技巧

通过探索性数据分析(EDA),我发现同一锚点下的所有目标部分之间存在非常相似的变换。同时,我发现在使用 LGB 构建特征时,对同一锚点进行分组并排序相关目标特征,效果提升很大。因此,我决定为 teammate_info 构建输入:

teammate_info = ";".join(set(train.group(['anchor'])['target'].tolist()))

context = anchor + [SEP] + target + [SEP] + teammate_info

总结

在比赛的最后几天,我忙于比比赛更重要的事情,失去了最后冲刺的大量时间,但谢天谢地,我仍然以单人参赛的形式完成了金牌,并成为了 Kaggle 特级大师,谢谢大家。

同比赛其他方案