504. Feedback Prize - Predicting Effective Arguments | feedback-prize-effectiveness
首先,我要感谢比赛主办方举办了这场比赛。同时,我也要感谢所有提供优秀 notebooks 和讨论的人,特别是 @nbroad。事实上,我最好的单模型很大程度上是基于 他的 kernel。
因为简单的文本分类方法得分不是很高,而且推理时间太长,我们放弃了这种方法,转而采用 token 分类方法。我们在后处理阶段以不同的方式训练模型:要么像 US PPPM 第8名方案那样对 discourse_text 中的所有 token 的预测结果取平均值,要么直接采用 discourse_text 第一个 sep token 的预测结果。在前一种类型的模型中,我们使用了加权交叉熵损失,这非常有帮助。
我们最好的公开提交方案采用了 Nelder-Mead 融合以及 LightGBM 和 XGBoost 堆叠,比例为 1:1:1。在堆叠中,使用了一些特征,如文本长度、每篇文章中出现的每种论述类型的计数,以及 essay_text 中每种论述标签的平均值和标准差。集成中使用的部分模型详情如下。
| 模型 | Token 方式 | CV | Public | Private |
|---|---|---|---|---|
| deberta-v3-large | 仅 sep | 0.5892 | 0.577 | 0.580 |
| deberta-v3-large | 文本 token 均值 | 0.5907 | 0.579 | 0.587 |
| deberta-large | 仅 sep | 0.5921 | 未提交 | 未提交 |