第4名解决方案
第4名解决方案
作者: hakubishin3 (shuheigoda)
比赛排名: 第4名
概述
我的解决方案是堆叠总共22个模型。本次比赛中训练的所有模型都使用了相同的折数(4折)。
有效的方法
- [高影响] 使用预训练模型嵌入训练 SVR / Ridge
- 从38个预训练模型的最后4层提取特征,并使用前向特征选择来探索最佳的 SVR。
- 使用 SVR 的最佳嵌入组合训练 Ridge 模型。
- SVR 是我最好的单模型型(CV: 0.4467)。
- [高影响] 伪标签
- 每个模型使用了两种模式:
- 使用伪标签进行预训练,然后仅使用给定的训练数据进行微调。
- 将伪标签与给定的训练数据连接起来,并使用所有这些数据进行训练。
- 用作伪标签的 FB1 数据量:
- 仅使用与 FB3 相似的 FB1 数据。
- 使用所有 FB1 数据(但仅限少数模型)。
- 反复重复此过程。
- [高影响] Ridge 和 LGB 堆叠
- CV: 0.4425(Ridge), 0.4443(LGB), 0.4423(Ridge 和 LGB 的加权平均)。
- 使用微调后模型的预测值作为输入值训练 Ridge。
- 使用预测值和由 readability 创建的元特征训练 LGB。
- [中等影响] 添加特殊标记 ('\n')
- [低影响] 缩短序列长度
- 几乎都使用 512 长度。
- 可以减少推理时间。
- 为了模型多样性,训练了少数长度为 1500 的模型。
- [低影响] 稳定训练的技巧
- 全精度训练。
- 分层学习率衰减。
- 余弦学习率调度器。
- 超参数调整。
无效的方法
- AWP, FGM(对抗训练方法)。
- 使用微调后的模型嵌入训练 SVR。
- 最后一层重新初始化。
- 常规 MLM(掩码语言模型)。
- 预测标点错误及其统计信息,用作堆叠模型中的元特征。
- 预测话语要素的质量评级(FB2 任务目标)及其统计信息,用作堆叠模型中的元特征。
- CV 分数和 Public 分数提高,但 Private 分数下降 (0.0002)。
- 微调拼写纠正模型作为特定惯例模型。
- 微调以往比赛中顶级解决方案的预训练权重。
重要参考