23th place solution

362. Google QUEST Q&A Labeling | google-quest-challenge

开始: 2019-11-22 结束: 2020-02-10 自然语言处理数据算法赛

第23名解决方案

第23名解决方案

作者: hakubishin3 (Grandmaster) | 比赛排名: 第23名

首先，感谢我的队友 @agatan 。

预处理

对句子应用 html unescape（HTML反转义）
对于超过最大长度的句子，对其头部和尾部进行截断处理

建模

我们在 Kernel 中分别训练了 Question Bert-base 模型和 Question & Answer Bert-base 模型
Question 模型预测与问题相关的目标，Q-A 模型预测所有目标
使用 GroupKFold 进行 3 折交叉验证，训练 3 个 epoch
损失函数：BCE（二元交叉熵） + margin ranking loss（间隔排序损失）

后处理

使用 LightGBM 作为第二阶段的堆叠模型
根据我的实验，max_depth=1 和 lr=0.1 效果最好
除了预测值外，还将文本长度等元特征输入 LightGBM

最佳模型成绩

CV（交叉验证）: 0.3851
Public LB（公开排行榜）: 0.45979
Private LB（私有排行榜）: 0.41440

我们分享了我们的 Kernel，感兴趣的话请查看。

同比赛其他方案

1st place solution with code

Two BERTs are better than one (2nd place solution)

3rd place solution

4th place solution overview