返回列表

23th place solution

362. Google QUEST Q&A Labeling | google-quest-challenge

开始: 2019-11-22 结束: 2020-02-10 自然语言处理 数据算法赛
第23名解决方案

第23名解决方案

作者: hakubishin3 (Grandmaster) | 比赛排名: 第23名

首先,感谢我的队友 @agatan 。

预处理

  • 对句子应用 html unescape(HTML反转义)
  • 对于超过最大长度的句子,对其头部和尾部进行截断处理

建模

  • 我们在 Kernel 中分别训练了 Question Bert-base 模型和 Question & Answer Bert-base 模型
  • Question 模型预测与问题相关的目标,Q-A 模型预测所有目标
  • 使用 GroupKFold 进行 3 折交叉验证,训练 3 个 epoch
  • 损失函数:BCE(二元交叉熵) + margin ranking loss(间隔排序损失)

后处理

  • 使用 LightGBM 作为第二阶段的堆叠模型
  • 根据我的实验,max_depth=1 和 lr=0.1 效果最好
  • 除了预测值外,还将文本长度等元特征输入 LightGBM

最佳模型成绩

  • CV(交叉验证): 0.3851
  • Public LB(公开排行榜): 0.45979
  • Private LB(私有排行榜): 0.41440

我们分享了我们的 Kernel,感兴趣的话请查看。

同比赛其他方案