478. Feedback Prize - Evaluating Student Writing | feedback-prize-2021
首先,我要感谢 Kaggle 和主办方举办这次比赛,也要感谢所有分享了有用方法和信息的人。
我在这次比赛中参考了很多分享出来的想法。
正如公开的方法那样,我将这个任务作为命名实体识别 (NER) 来处理。
我的解决方案由以下两部分组成。
我的模型基于 @Abhishek 的代码。
我对以下5个模型进行了加权平均。
每个模型都在5折上进行了训练,并在提交时选择了其中的部分折。
| 模型 | 权重 | 使用的折数 |
|---|---|---|
| longformer-large | 0.175 | 3 |
| funnel-large | 0.175 | 3 |
| deberta-large(seed:77) | 0.15 | 3 |
| deberta-large(seed:456) | 0.15 | 2 |
| deberta-xlarge | 0.35 | 5 |
主要使用了以下3种后处理方法。
我稍微拉伸了较短的 'predictionstring'。
阈值设置如下:
| discourse_type (话语类型) | 阈值1 (长度/增加程度) |
阈值2 (长度/增加程度) |
阈值3 (长度/增加程度) |
阈值4 (长度/增加程度) |
|---|---|---|---|---|
| Lead | 7~13 / +6 | 14~19 / +12 | 20~30 / +14 | - |
| Position | 5~15 / +3 | 16~20 / +2 | - | - |
| Claim | 1~5 / +1 | 6~10 / +2 | 11~20 / +4 | - |
| Counterclaim | 5~24 / +4 | 25~37 / +5 | - | - |
| Rebuttal | 2~4 / +1 | 5~13 / +5 | 14~21 / +7 | 22~27 / +8 |
| Evidence | 17~20 / +11 | 21~23 / +14 | 24~29 / +17 | 30~36 / +20 |
| Concluding Statement | - | - | - | - |
基本上,我按照 'predictionstring