返回列表

Good Ineffective - 6th top solution: simple and effective

504. Feedback Prize - Predicting Effective Arguments | feedback-prize-effectiveness

开始: 2022-05-24 结束: 2022-08-23 智能评测 数据算法赛
Good Ineffective - 第6名方案:简单且有效

Good Ineffective - 第6名方案:简单且有效

作者: HZM (Grandmaster) 及队友 BladeRunner, Carl Max, [START]
比赛排名: 第6名

感谢主办方组织了这次比赛,也感谢所有队友为这次比赛做出的同等贡献。

我想分享我们的解决方案,这是一个简单且有效的方案。

  1. 正如其他顶尖团队一样,数据预处理是本次比赛的关键。在数据处理中,我们在元素文本前添加了元素类型,使用 [SEP] 标记作为分隔符,然后将文章中的所有元素整合成一个长句子,接着对每个句子进行分类标签预测。以下是输入数据的示例:

    [SEP]Lead. *Discourse_00*[SEP]Position. *Discourse_01*[SEP]Claim. *Discourse_02* .......
  2. 然后我们使用 deberta-base 作为骨干网络来测试不同的模型架构,我们在最终输出层使用了 multi-dropout(多重丢弃)。
  3. 我们选择了 DeBERTa 系列模型,具体使用了 HuggingFace 库中的 "microsoft/deberta-large ""microsoft/deberta-v3-large "
  4. 在训练阶段还加入了 AWP(对抗权重扰动),这被证明是有效的。
  5. 我们还将之前的 feedback1 训练数据标记为外部数据源,这也提高了 CV(交叉验证)和 PL(公开排行榜)分数。
  6. 最终采用 5 折交叉验证(CV-5Fold)和简单的加权融合。

实验结果 (LB)

以下是公开排行榜(LB)的结果:

  1. deberta-base 基线 5折,Public LB : 0.608;
  2. 使用整篇文章作为输入,Public LB : 0.589;
  3. 使用 deberta-v3-large,Public LB : 0.577;
  4. 引入伪标签,Public LB : 0.572;
  5. 引入 AWP 训练,Public LB : 0.570;
  6. 进一步微调学习率和 AWP 参数,Public LB : 0.568;
  7. 简单平均权重集成,Public LB : 0.560。
同比赛其他方案