返回列表

Private 25th Place Solution

446. CommonLit Readability Prize | commonlitreadabilityprize

开始: 2021-05-03 结束: 2021-08-02 智能评测 数据算法赛
第25名私有数据解决方案

第25名私有数据解决方案

作者: shigeria (团队成员)
比赛排名: 第25名
发布时间: 2021年8月3日

首先,我在团队中的贡献主要在于模型堆叠的过程。因此,我想主要讨论一下集成的方法。

公共排行榜最佳模型

模型 CV (交叉验证) Public (公共榜) Private (私有榜)
roberta-base 0.4778 ? ?
roberta-large 0.4697 0.460 0.464
electra-large 0.4747 0.462 0.474
mpnet-base 0.4816 ? ?
longformer-large 0.4873 ? ?
  • 我们的一些模型使用了层重初始化。在 'large' 模型中,重初始化层数为5层('base' 模型为2层)。
  • 这篇文章 (链接) 建议在回归问题中应避免使用 Dropout 和 BatchNorm 层,因此我们没有使用它们。
  • 除了表格中提到的模型外,我们在私有榜最佳提交中还使用了 roberta-base x 2、roberta-large x 12、electra-large x 2、mpnet-base x 1 和 longformer-large x 1,但我认为通过精简模型列表还有改进的空间。

堆叠

在堆叠过程中,我们将句子嵌入(由 sentence_transformers 生成)与所有模型的预测结果一起加入,目的是不仅考虑预测目标,还考虑句子本身的特征。当通过 KPCA(n_components=2, kernel='poly')对句子嵌入进行降维时,CV 分数最高。在集成阶段,我们采用了 Ridge 和 ARDRegression 的平均预测结果,因为 LGBM 在 CV 上表现很好(约 0.432~),但似乎过拟合了(公共排行榜分数较差),而其他模型没有取得这么好的 CV 分数。

对我们无效的方法

  • 伪标签
  • 数据增强
  • 某些架构,如 xlnet、gpt(我认为我们错失金牌的原因之一是我们未能有效地处理这些架构。)

最后,我想感谢所有与我们竞争并分享许多有用见解的人。感谢您的阅读!

同比赛其他方案