593. LLM - Detect AI Generated Text | llm-detect-ai-generated-text
感谢我的队友和比赛主办方组织了这场精彩的比赛
我们方法的简要总结:
40%权重使用TFID方法。对2、3、4和5-gram取平均值
60%权重使用LLM集成。主要是7B参数的Mistral/Llama模型。我们最好的提交仅使用了下面描述的对抗性选择数据集。
我们使用的数据集是通过对抗性选择构建的数据集。我们依赖于比赛中分享的所有优秀公开数据集。
我们在10%的数据集上训练了一个小型语言模型。预测剩余部分,然后选择最困难的问题。将其与原始persuade数据集按50/50的比例混合。
我们实际上很晚才发现这个方法,我们的提交是在最后一天使用仓促训练的模型完成的。我认为这个方法可以通过使用更好的基础模型来选择对抗样本、训练更大的LoRA秩等方式来进一步改进...