4th place solutioin | 优胜方案

第4名解决方案

作者： hakubishin3 (shuheigoda)
比赛排名： 第4名

概述

我的解决方案是堆叠总共22个模型。本次比赛中训练的所有模型都使用了相同的折数（4折）。

有效的方法

[高影响] 使用预训练模型嵌入训练 SVR / Ridge
- 从38个预训练模型的最后4层提取特征，并使用前向特征选择来探索最佳的 SVR。
- 使用 SVR 的最佳嵌入组合训练 Ridge 模型。
- SVR 是我最好的单模型型（CV: 0.4467）。
[高影响] 伪标签
- 每个模型使用了两种模式：
  - 使用伪标签进行预训练，然后仅使用给定的训练数据进行微调。
  - 将伪标签与给定的训练数据连接起来，并使用所有这些数据进行训练。
- 用作伪标签的 FB1 数据量：
  - 仅使用与 FB3 相似的 FB1 数据。
  - 使用所有 FB1 数据（但仅限少数模型）。
- 反复重复此过程。
[高影响] Ridge 和 LGB 堆叠
- CV: 0.4425(Ridge), 0.4443(LGB), 0.4423(Ridge 和 LGB 的加权平均)。
- 使用微调后模型的预测值作为输入值训练 Ridge。
- 使用预测值和由 readability 创建的元特征训练 LGB。
[中等影响] 添加特殊标记 ('\n')
- CV 提升 (0.001)。
[低影响] 缩短序列长度
- 几乎都使用 512 长度。
- 可以减少推理时间。
- 为了模型多样性，训练了少数长度为 1500 的模型。
[低影响] 稳定训练的技巧
- 全精度训练。
- 分层学习率衰减。
- 余弦学习率调度器。
- 超参数调整。

无效的方法

AWP, FGM（对抗训练方法）。
使用微调后的模型嵌入训练 SVR。
最后一层重新初始化。
常规 MLM（掩码语言模型）。
预测标点错误及其统计信息，用作堆叠模型中的元特征。
- 参考链接
预测话语要素的质量评级（FB2 任务目标）及其统计信息，用作堆叠模型中的元特征。
- CV 分数和 Public 分数提高，但 Private 分数下降 (0.0002)。
微调拼写纠正模型作为特定惯例模型。
- 参考链接
微调以往比赛中顶级解决方案的预训练权重。
- 参考链接

重要参考

同比赛其他方案

 1st Place Solution

2nd solution (back-translation & rank-loss)

3rd Place Solution - Congratulations New Competition Grandmaster Amed!

5th place solution

6th place solution