返回列表

18th place solution

446. CommonLit Readability Prize | commonlitreadabilityprize

开始: 2021-05-03 结束: 2021-08-02 智能评测 数据算法赛
第18名解决方案

第18名解决方案

作者: RB (Master) | 比赛排名: 第18名 | 发布时间: 2021-08-03

感谢 Kaggle 和 Commonlit 提供这次机会。

同时感谢 @rhtsingh@andretugan 分享优秀的内核。

我们使用了24个大型模型和3个基础模型,充分利用了3小时的运行时间。我们使用 SGD 回归器和 TF-IDF 特征进行了堆叠。我们堆叠中的模型描述如下:

交叉验证 - 所有模型均使用 Kincaid 可读性特征进行了5折训练。我们所有的模型都使用了3个随机种子(42, 77, 2021)。即使使用3个种子,我们也注意到 LB(排行榜)分数有约0.005的差异,但3个种子是我们能做到的极限。每一折没有特别之处——所有折都使用相同的头部/参数进行训练。

Roberta Large(3个 Roberta Large,每个3个种子——共9个模型)- 所有 Roberta 模型都使用了在竞赛数据、Kids frontiers 数据和 Simple wiki 上预训练的模型。

  • 注意力头——结合 TabNet 的 TF-IDF 特征——差异化学习率
  • 加权层池化——多样本 Dropout,无差异化学习率

Deberta Large(3个 Deberta Large,每个3个种子——共9个模型)
所有 Deberta 模型都训练了25个 Epoch,并在最后进行验证。无预训练。

  • Deberta Large 在 文本简化数据集 上进行了伪标签训练
  • Deberta Large 配合池化输出、注意力头和多样本 Dropout,以及用于 TF-IDF 特征的 TabNet。
    对于多样本 Dropout 架构,模型输出5个值,其平均值对应我们的目标值,其标准差对应标准误差。因此,这两个量都用于训练。

Electra Large - 注意力头——结合 TabNet 的 TF-IDF 特征

Ernie - 注意力头——结合 TabNet 的 TF-IDF 特征。

Roberta Base -(在竞赛数据上预训练)该模型几乎与公共内核相同,我们在这个模型中加入了 LGBM 和 Ridge 的预测结果。

我们最好的模型是 Roberta Large,公共 LB 分数为 0.461(CV:0.473),其他所有模型的分数都在 0.461 到 0.473 之间。TF-IDF 特征在每个模型中为我们带来了约 0.002 的提升。

那些没有起作用的方法:

  • 使用其他数据集对 Roberta Large 进行预训练——我们尝试了许多其他数据集进行预训练
  • 对 Roberta Large 使用伪标签——它在私有 LB 上有效,但不在我们的堆叠中。
  • 对 Ernie 进行预训练
  • 许多不同的架构以及不同架构的组合。

虽然因为差一名错失金牌区而感到失望,但与团队 @kpriyanshu256@aman1391@gyanendradas 和 Adarash S 合作是一种荣幸——谢谢大家。

同比赛其他方案