返回列表

12th Place Solution

519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning

开始: 2022-08-30 结束: 2022-11-29 智能评测 数据算法赛
第12名解决方案

第12名解决方案

作者:hiro (Master) | 排名:第12名 | 发布时间:2022-11-30

首先,我要感谢比赛主办方和Kaggle,并祝贺所有获奖者。
我还要感谢所有在各种讨论中提供有用信息的Kagglers。
我一直在努力争取Solo Gold(单人金牌),很高兴终于赢得了它。

概述

我的解决方案是各种DeBERTa模型和RAPIDS SVR的集成。
我参考了 @cdeotte 关于RAPIDS SVR的优秀笔记,非常感谢。
https://www.kaggle.com/code/cdeotte/rapids-svr-cv-0-450-lb-0-44x

预处理

准备了两种类型的文本数据,一种是将 \n 转换为 [BR],另一种则没有。
在转换为 [BR] 的文本数据上训练的模型在Public和Private榜单上的得分都更高。

交叉验证

我使用了按目标分层的 MultiLabelStratifiedKFold 5折交叉验证。

模型

骨干网络:

  • deberta-v3-base
  • deberta-v3-large
  • deberta-large
  • deberta-xlarge
  • deberta-xlarge-mnli

池化层:

  • meanpolling & layernorm(平均池化 & 层归一化)

RAPIDS SVR

从以下模型中提取特征并训练了SVR。

  • deberta-v3-base
  • deberta-large
  • deberta-v3-large
  • deberta-xlarge
  • deberta-base-mnli
  • deberta-large-mnli
  • deberta-xlarge-mnli
  • deberta-v2-xlarge
  • deberta-v2-xlarge-mnli

集成

使用 Nelder-Mead 方法按目标调整权重。

有效的技巧

  • 软标签
  • 伪标签
  • 小批量大小 (batchsize=2)

无效的技巧

  • MLM (掩码语言模型)
  • 非DeBERTa模型

在Private榜单中有效的技巧

带有 GPR(高斯过程回归)的集成拥有最高的Private得分,但因为Public得分不高而未被选中。(public:0.437852 / private:0.433646)

效率奖(第4名)

  • deberta-v3-xsmall
  • 软标签
  • 伪标签
  • 使用5折交叉验证中CV得分最高的模型
同比赛其他方案