24th Short Solution

第24名简短方案

作者: LIA
比赛排名: 第24名

首先，祝贺所有获奖者，并感谢主办方。同时，感谢所有参赛者，特别是 @abhishek 和 @kashiwaba，他们分享的内核是我参考最多的资源。

第一阶段：Token预测和Span预测

对于分类任务，我使用了Token预测和Span预测。在文章文本中，存在多个目标文本。在我的方案中，模型被训练为使用特定Token或文本跨度的平均值来预测有效性。此外，我发现目标文本开头添加CLS和SEP Token会影响CV分数。使用 deberta-v3-large 和 deberta-v2-xlarge，我获得了以下结果：

模型	方法	CV分数
deberta-v3-large	span prediction	0.6182
deberta-v3-large	CLS/SEP, token prediction	0.6165
deberta-v3-large	CLS/SEP, span prediction	0.6181
deberta-v2-xlarge	span prediction	0.6290
deberta-v2-xlarge	span prediction, overfitting	0.7193
deberta-v2-xlarge	CLS/SEP, token prediction	0.6308
deberta-v2-xlarge	CLS/SEP, token prediction, overfitting	0.7404

有趣的是，deberta-v2-xlarge 显示出较低的CV分数，但在集成后提升了CV表现。经过简单的集成（手动权重调整，CV 0.589, 0.583）。

第二阶段：集成权重的贝叶斯优化和LGBM

为了提高分数，我首先对模型进行了集成，通过贝叶斯优化权重以最小化OOF CV（CV 0.579）。然后，我使用LGBM进一步提高分数，我添加了前一个/后一个文本的有效性以及文本的位置信息作为附加信息（CV 0.578, LB 0.575, Private LB 0.573）。

总结 - 有效的尝试

利用整篇文章文本推断有效性
集成Span和Token分类，使用CLS/SEP Token
权重优化和LGBM处理附加特征

其他参赛者的解决方案总是令人惊叹且具有吸引力。我很遗憾没有使用之前比赛的MLM预训练和伪标签来提高我的分数。感谢其他参赛者分享优秀的解决方案。我的方案地址：https://www.kaggle.com/learnitanyway/24th-inference-deberta-ensemble。

第24名简短方案

第一阶段：Token预测和Span预测

第二阶段：集成权重的贝叶斯优化和LGBM

总结 - 有效的尝试

同比赛其他方案