返回列表

12th place solution - Stretching short 'predictionstring's

478. Feedback Prize - Evaluating Student Writing | feedback-prize-2021

开始: 2021-12-14 结束: 2022-03-15 智能评测 数据算法赛
第12名方案 - 拉伸短的 'predictionstring'

第12名方案 - 拉伸短的 'predictionstring'

作者: kuro_B (Grandmaster) | 比赛排名: 第12名

首先,我要感谢 Kaggle 和主办方举办这次比赛,也要感谢所有分享了有用方法和信息的人。

我在这次比赛中参考了很多分享出来的想法。

解决方案

正如公开的方法那样,我将这个任务作为命名实体识别 (NER) 来处理。
我的解决方案由以下两部分组成。

  1. 5个模型的加权集成
  2. 若干后处理(包括拉伸短的 'predictionstring')

1. 5个模型的加权集成

我的模型基于 @Abhishek 的代码。

我对以下5个模型进行了加权平均。
每个模型都在5折上进行了训练,并在提交时选择了其中的部分折。

模型 权重 使用的折数
longformer-large 0.175 3
funnel-large 0.175 3
deberta-large(seed:77) 0.15 3
deberta-large(seed:456) 0.15 2
deberta-xlarge 0.35 5

2. 若干后处理

主要使用了以下3种后处理方法。

① 拉伸短的 'predictionstring'(Public +0.007 / Private +0.005)

我稍微拉伸了较短的 'predictionstring'。
阈值设置如下:

discourse_type (话语类型) 阈值1
(长度/增加程度)
阈值2
(长度/增加程度)
阈值3
(长度/增加程度)
阈值4
(长度/增加程度)
Lead 7~13 / +6 14~19 / +12 20~30 / +14 -
Position 5~15 / +3 16~20 / +2 - -
Claim 1~5 / +1 6~10 / +2 11~20 / +4 -
Counterclaim 5~24 / +4 25~37 / +5 - -
Rebuttal 2~4 / +1 5~13 / +5 14~21 / +7 22~27 / +8
Evidence 17~20 / +11 21~23 / +14 24~29 / +17 30~36 / +20
Concluding Statement - - - -

基本上,我按照 'predictionstring

同比赛其他方案