485. NBME - Score Clinical Patient Notes | nbme-score-clinical-patient-notes
首先,我要感谢 Kaggle 和竞赛主办方举办了如此有趣的比赛。
其次,我要感谢我的队友 @harshit92、@laplaceplanet、@xbustc。能和你们在一个团队真是太棒了。
1.1 我们解决方案的主要部分是使用伪标签进行预训练。
1.2 伪标签不仅用于 1.1,还用于增加训练数据。
1.3 提交策略:
我们选择了 LB 最高的第一次提交。
(公开分 0.893:公开排名第 10,但私有分 0.892)
这个公开排名更好,但以下第二次提交的私有排名更好:
我们选择了 CV 最高的第二次提交。
(公开分 0.893:私有分 0.892 (私有排名第 14)。
相信 CV 非常重要。
该策略参考了 @cdeotte 的 PetFinder 方案。
最终提交模型(第二个):集成权重均为 0.25。
- deberta v3 large (使用伪标签预训练) lb 0.889
- electra (使用伪标签预训练) lb 0.886
- deberta v3 large (使用伪标签增加训练数据) lb 0.888
- deberta v1 xlarge (使用伪标签预训练 & 使用伪标签增加训练数据) lb 0.889
------------------详情如下-------------
我的模型主要通过合并 @abhishek 在 Feedback 比赛中制作的 代码 和 @yasufuminakama 的 代码 来创建。
主要技巧如下:
我们不使用伪标签的最佳模型是 deberta v1 xlarge 公开 lb 0.887,deberta v2 xlarge 0.887。