第18名解决方案：生成对抗性数据

作者：JungleBeastDS

发布时间：2024年1月23日

比赛排名：第18名

得票数：34票

感谢我的队友和比赛主办方组织了这场精彩的比赛

我们方法的简要总结：
40%权重使用TFID方法。对2、3、4和5-gram取平均值
60%权重使用LLM集成。主要是7B参数的Mistral/Llama模型。我们最好的提交仅使用了下面描述的对抗性选择数据集。

我们使用的数据集是通过对抗性选择构建的数据集。我们依赖于比赛中分享的所有优秀公开数据集。
我们在10%的数据集上训练了一个小型语言模型。预测剩余部分，然后选择最困难的问题。将其与原始persuade数据集按50/50的比例混合。

我们实际上很晚才发现这个方法，我们的提交是在最后一天使用仓促训练的模型完成的。我认为这个方法可以通过使用更好的基础模型来选择对抗样本、训练更大的LoRA秩等方式来进一步改进...

团队成员

JungleBeastDS MASTER

PeirenC MASTER

KE CONTRIBUTOR

lazysheep277 CONTRIBUTOR