Private 23rd solution

Private 第23名方案

作者: shigeria (schulta, m.hirakawa) | 比赛排名: 23rd

首先，我要感谢比赛主办方举办了这场比赛。同时，我也要感谢所有提供优秀 notebooks 和讨论的人，特别是 @nbroad。事实上，我最好的单模型很大程度上是基于他的 kernel。

阶段1: BERT 预测

因为简单的文本分类方法得分不是很高，而且推理时间太长，我们放弃了这种方法，转而采用 token 分类方法。我们在后处理阶段以不同的方式训练模型：要么像 US PPPM 第8名方案那样对 discourse_text 中的所有 token 的预测结果取平均值，要么直接采用 discourse_text 第一个 sep token 的预测结果。在前一种类型的模型中，我们使用了加权交叉熵损失，这非常有帮助。

阶段2: LGB 和 XGB 堆叠与融合

我们最好的公开提交方案采用了 Nelder-Mead 融合以及 LightGBM 和 XGBoost 堆叠，比例为 1:1:1。在堆叠中，使用了一些特征，如文本长度、每篇文章中出现的每种论述类型的计数，以及 essay_text 中每种论述标签的平均值和标准差。集成中使用的部分模型详情如下。

模型	Token 方式	CV	Public	Private
deberta-v3-large	仅 sep	0.5892	0.577	0.580
deberta-v3-large	文本 token 均值	0.5907	0.579	0.587
deberta-large	仅 sep	0.5921	未提交	未提交

总结

有效的尝试

使用 Feedback 2021 数据集进行伪标签
- CV 和 Public LB 都下降了约 0.01。
AWP (eps: 1e-4, lr: 1.0, CV 下降了约 0.003。)
LightGBM 和 XGBoost 堆叠以及一些特征工程
分段预测和拼接，类似于 Feedback 2021 第一名的方案
集成使用不同推理方式的模型（对文本中所有 token 的预测取平均值，或仅使用文本第一个 sep token 的预测）

Private 23rd solution

Private 第23名方案

阶段1: BERT 预测

阶段2: LGB 和 XGB 堆叠与融合

总结

有效的尝试

同比赛其他方案