18th place solution

第18名解决方案

作者： RB (Master) | 比赛排名： 第18名 | 发布时间： 2021-08-03

感谢 Kaggle 和 Commonlit 提供这次机会。

同时感谢 @rhtsingh 和 @andretugan 分享优秀的内核。

我们使用了24个大型模型和3个基础模型，充分利用了3小时的运行时间。我们使用 SGD 回归器和 TF-IDF 特征进行了堆叠。我们堆叠中的模型描述如下：

交叉验证 - 所有模型均使用 Kincaid 可读性特征进行了5折训练。我们所有的模型都使用了3个随机种子（42, 77, 2021）。即使使用3个种子，我们也注意到 LB（排行榜）分数有约0.005的差异，但3个种子是我们能做到的极限。每一折没有特别之处——所有折都使用相同的头部/参数进行训练。

Roberta Large（3个 Roberta Large，每个3个种子——共9个模型）- 所有 Roberta 模型都使用了在竞赛数据、Kids frontiers 数据和 Simple wiki 上预训练的模型。

注意力头——结合 TabNet 的 TF-IDF 特征——差异化学习率
加权层池化——多样本 Dropout，无差异化学习率

Deberta Large（3个 Deberta Large，每个3个种子——共9个模型）
所有 Deberta 模型都训练了25个 Epoch，并在最后进行验证。无预训练。

Deberta Large 在文本简化数据集上进行了伪标签训练
Deberta Large 配合池化输出、注意力头和多样本 Dropout，以及用于 TF-IDF 特征的 TabNet。
对于多样本 Dropout 架构，模型输出5个值，其平均值对应我们的目标值，其标准差对应标准误差。因此，这两个量都用于训练。

Electra Large - 注意力头——结合 TabNet 的 TF-IDF 特征

Ernie - 注意力头——结合 TabNet 的 TF-IDF 特征。

Roberta Base -（在竞赛数据上预训练）该模型几乎与公共内核相同，我们在这个模型中加入了 LGBM 和 Ridge 的预测结果。

我们最好的模型是 Roberta Large，公共 LB 分数为 0.461（CV：0.473），其他所有模型的分数都在 0.461 到 0.473 之间。TF-IDF 特征在每个模型中为我们带来了约 0.002 的提升。

那些没有起作用的方法：

使用其他数据集对 Roberta Large 进行预训练——我们尝试了许多其他数据集进行预训练
对 Roberta Large 使用伪标签——它在私有 LB 上有效，但不在我们的堆叠中。
对 Ernie 进行预训练
许多不同的架构以及不同架构的组合。

虽然因为差一名错失金牌区而感到失望，但与团队 @kpriyanshu256、@aman1391、@gyanendradas 和 Adarash S 合作是一种荣幸——谢谢大家。

第18名解决方案

同比赛其他方案