446. CommonLit Readability Prize | commonlitreadabilityprize
感谢 Kaggle 和 CommonLit 举办这次比赛,这是我的第一次 NLP 比赛,我学到了很多东西。
同时非常感谢 @rhtsingh(我从你的笔记本中学到了很多关于 NLP 的知识),@leighplt(我使用你的笔记本作为初始基线)和 @konradb(我使用了你笔记本中的特征)。
.train() 和 .eval() 模式之间似乎存在差距。我认为这可能源于我无法识别的潜在错误,或者某些层在 .train() 和 .eval() 之间的方差差异。Dropout 中的缩放因子通常不能保证层具有相同的方差,而“可读性”听起来像是一个与“方差”/“困惑度”...相关的概念。当然,这可能不是真正的原因。.train() 模式,这给了我合理的性能,并且在我的情况下优于零 dropout 设置。由于 dropout 的随机性,我在推理时对同一模型但不同种子(seed)的预测结果进行了平均,这给了我进一步的提升。我在最终解决方案中包含了一个带有 ITPT 的模型,但这只是为了多样性,它在 CV 和 LB 方面对我都没有效果。
(分数为未进行 dropout 平均的分数)
| 模型编号 | 模型名称 | CV 分数 | Public LB |
|---|---|---|---|
| F2 | roberta large | 0.4839 | 0.470 |
| F17 | roberta base | 0.4758 | 0.468 |
| F23 | roberta large | 0.4792 | 0.465 |
| F32 | deberta large | 0.4749 | 0.469 |
| F41 | roberta large mnli | 0.4796 | 0.475 |
| F50 | funnel large | 0.480 | 0.465 |
| F51 | electra large | 0.479 | 0.469 |
同名模型具有不同的参数,您可以在相应的笔记本中查看详情。
我使用基于 CV 的“one drop”策略来选择模型,虽然我最好的单模型 deberta large(CV 0.4757,Public LB 0.462,Private LB 0.462)并没有包含在我的最终推理