返回列表

4th place solutioin

519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning

开始: 2022-08-30 结束: 2022-11-29 智能评测 数据算法赛
第4名解决方案

第4名解决方案

作者: hakubishin3 (shuheigoda)
比赛排名: 第4名

概述

我的解决方案是堆叠总共22个模型。本次比赛中训练的所有模型都使用了相同的折数(4折)。

解决方案概览图

有效的方法

  • [高影响] 使用预训练模型嵌入训练 SVR / Ridge
    • 从38个预训练模型的最后4层提取特征,并使用前向特征选择来探索最佳的 SVR。
    • 使用 SVR 的最佳嵌入组合训练 Ridge 模型。
    • SVR 是我最好的单模型型(CV: 0.4467)。
  • [高影响] 伪标签
    • 每个模型使用了两种模式:
      • 使用伪标签进行预训练,然后仅使用给定的训练数据进行微调。
      • 将伪标签与给定的训练数据连接起来,并使用所有这些数据进行训练。
    • 用作伪标签的 FB1 数据量:
      • 仅使用与 FB3 相似的 FB1 数据。
      • 使用所有 FB1 数据(但仅限少数模型)。
    • 反复重复此过程。
  • [高影响] Ridge 和 LGB 堆叠
    • CV: 0.4425(Ridge), 0.4443(LGB), 0.4423(Ridge 和 LGB 的加权平均)。
    • 使用微调后模型的预测值作为输入值训练 Ridge。
    • 使用预测值和由 readability 创建的元特征训练 LGB。
  • [中等影响] 添加特殊标记 ('\n')
    • CV 提升 (0.001)。
  • [低影响] 缩短序列长度
    • 几乎都使用 512 长度。
    • 可以减少推理时间。
    • 为了模型多样性,训练了少数长度为 1500 的模型。
  • [低影响] 稳定训练的技巧
    • 全精度训练。
    • 分层学习率衰减。
    • 余弦学习率调度器。
    • 超参数调整。

无效的方法

  • AWP, FGM(对抗训练方法)。
  • 使用微调后的模型嵌入训练 SVR。
  • 最后一层重新初始化。
  • 常规 MLM(掩码语言模型)。
  • 预测标点错误及其统计信息,用作堆叠模型中的元特征。
  • 预测话语要素的质量评级(FB2 任务目标)及其统计信息,用作堆叠模型中的元特征。
    • CV 分数和 Public 分数提高,但 Private 分数下降 (0.0002)。
  • 微调拼写纠正模型作为特定惯例模型。
  • 微调以往比赛中顶级解决方案的预训练权重。

重要参考