返回列表

47th Place Solution

519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning

开始: 2022-08-30 结束: 2022-11-29 智能评测 数据算法赛
第47名解决方案

第47名解决方案

作者:JimmyLiao | 排名:第47名 | 发布时间:2022-12-01

首先,感谢主办方举办这次比赛,并祝贺所有参赛者。这是我第一次在Kaggle上获得奖牌,我从这次经历中学到了很多。

概述

我的解决方案是训练许多具有不同参数(池化技术、骨干网络、最大长度、随机种子)的模型,并通过加权平均对它们进行集成。我最好的交叉验证(CV)分数是 0.4484。

最佳模型配置

  • 骨干网络:deberta-v3-base
  • 池化方式:平均池化
  • 最大长度:512
  • 学习率:
    • 编码器:2e-4 (层级学习率衰减: 0.25)
    • 解码器:1e-3
  • 训练轮数:4 (其中1轮用于预热)
  • 批次大小:8
  • 折数:5
  • 随机种子:42

参数范围

  • 骨干网络:deberta-v3-base, deberta-v3-large, deberta-v3-small
  • 池化方式:平均池化, CLS池化, 最大池化, 加权层池化(使用最后4或5层)
  • 最大长度:512, 768, 1024, 1536
  • 随机种子:13, 42
  • 训练轮数:3, 4, 5

模型集成

在我的模型池中,通过此方法寻找权重,过滤掉权重小于 1e-3 的模型并重新寻找权重。

有效的方法

  • [高影响] 层级学习率衰减
  • [低影响] 添加特殊标记: "\n\n", "\r\n\r\n"
  • [低影响] 第一轮预热
  • [低影响] 冻结层

无效的方法

  • AWP (对抗权重扰动)
  • 伪标签
  • 最后一层重新初始化

致谢

感谢比赛主办方举办这次比赛,也感谢所有在比赛期间分享知识的人。我很高兴能从中受益良多!

同比赛其他方案