Private 25th Place Solution

第25名私有数据解决方案

作者： shigeria (团队成员)
比赛排名： 第25名
发布时间： 2021年8月3日

首先，我在团队中的贡献主要在于模型堆叠的过程。因此，我想主要讨论一下集成的方法。

公共排行榜最佳模型

模型	CV (交叉验证)	Public (公共榜)	Private (私有榜)
roberta-base	0.4778	?	?
roberta-large	0.4697	0.460	0.464
electra-large	0.4747	0.462	0.474
mpnet-base	0.4816	?	?
longformer-large	0.4873	?	?

我们的一些模型使用了层重初始化。在 'large' 模型中，重初始化层数为5层（'base' 模型为2层）。
这篇文章 (链接) 建议在回归问题中应避免使用 Dropout 和 BatchNorm 层，因此我们没有使用它们。
除了表格中提到的模型外，我们在私有榜最佳提交中还使用了 roberta-base x 2、roberta-large x 12、electra-large x 2、mpnet-base x 1 和 longformer-large x 1，但我认为通过精简模型列表还有改进的空间。

堆叠

在堆叠过程中，我们将句子嵌入（由 sentence_transformers 生成）与所有模型的预测结果一起加入，目的是不仅考虑预测目标，还考虑句子本身的特征。当通过 KPCA（n_components=2, kernel='poly'）对句子嵌入进行降维时，CV 分数最高。在集成阶段，我们采用了 Ridge 和 ARDRegression 的平均预测结果，因为 LGBM 在 CV 上表现很好（约 0.432~），但似乎过拟合了（公共排行榜分数较差），而其他模型没有取得这么好的 CV 分数。

对我们无效的方法

伪标签
数据增强
某些架构，如 xlnet、gpt（我认为我们错失金牌的原因之一是我们未能有效地处理这些架构。）

最后，我想感谢所有与我们竞争并分享许多有用见解的人。感谢您的阅读！

团队成员

takuoko (队长) Kaggle Grandmaster u++ Kaggle Master ynktk Kaggle Master shigeria Kaggle Master

第25名私有数据解决方案

公共排行榜最佳模型

堆叠

对我们无效的方法

团队成员

同比赛其他方案