第23名解决方案
第23名解决方案
作者: hakubishin3 (Grandmaster) | 比赛排名: 第23名
首先,感谢我的队友 @agatan 。
预处理
- 对句子应用 html unescape(HTML反转义)
- 对于超过最大长度的句子,对其头部和尾部进行截断处理
建模
- 我们在 Kernel 中分别训练了 Question Bert-base 模型和 Question & Answer Bert-base 模型
- Question 模型预测与问题相关的目标,Q-A 模型预测所有目标
- 使用 GroupKFold 进行 3 折交叉验证,训练 3 个 epoch
- 损失函数:BCE(二元交叉熵) + margin ranking loss(间隔排序损失)
后处理
- 使用 LightGBM 作为第二阶段的堆叠模型
- 根据我的实验,max_depth=1 和 lr=0.1 效果最好
- 除了预测值外,还将文本长度等元特征输入 LightGBM
最佳模型成绩
- CV(交叉验证): 0.3851
- Public LB(公开排行榜): 0.45979
- Private LB(私有排行榜): 0.41440
我们分享了我们的 Kernel,感兴趣的话请查看。