第5名方案：提示词即所需

摘要

在本次比赛中，我的主要模型结构基于提示学习。因为提示学习能够更充分地利用模型的现有知识进行推理，并且在少样本学习中具有明显优势，我曾利用提示学习在 SEMEVAL 2022 PCL Detection 比赛中获得了第一名。我首先将任务重构为一种特定形式的完形填空提示，然后在此基础上应用提示学习来预测标签词的置信度。

方法

提示学习

为了让模型能够直接输出锚点和目标之间的相似度，我改进了 PET 论文中的模型。我手动将“YES”设置为标签1对应的词，然后提取模型在该词上的 logits 作为输入，并使用 BCE Loss 进行计算，使“YES”的 logits 等于相似度。

在实验中，我们发现提示模型的效果比常规模型高出 0.005。

方法	CV 分数	LB 分数
attention_pool	0.8485	0.8535
prompt	0.8535	0.8570

技巧

通过探索性数据分析（EDA），我发现同一锚点下的所有目标部分之间存在非常相似的变换。同时，我发现在使用 LGB 构建特征时，对同一锚点进行分组并排序相关目标特征，效果提升很大。因此，我决定为 teammate_info 构建输入：

teammate_info = ";".join(set(train.group(['anchor'])['target'].tolist()))

context = anchor + [SEP] + target + [SEP] + teammate_info

总结

在比赛的最后几天，我忙于比比赛更重要的事情，失去了最后冲刺的大量时间，但谢天谢地，我仍然以单人参赛的形式完成了金牌，并成为了 Kaggle 特级大师，谢谢大家。

5th solution: prompt is all you need

摘要

方法

提示学习

技巧

总结

同比赛其他方案