第二名方案 - 加权框融合与后处理

第二名方案

作者：Chris Deotte, Udbhav Bamba, Chun Ming Lee
比赛：Feedback Prize - Evaluating Student Writing

感谢佐治亚州立大学、The Learning Agency Lab 和 Kaggle 举办了一场精彩的比赛。数据质量很高且非常有趣。评估指标和训练测试集的划分做得很好。这次比赛非常成功，并将造福于一项公益事业。

与 Chun Ming Lee 和 Udbhav Bamba 组队是一段美妙的经历。我学到的 NLP 知识比参加在线课程还要多。这两位 Kagglers 都是 NLP 领域的 Grandmaster，我现在知道如何高效且有效地使用 HuggingFace Trainer。我也学会了如何自定义模型和损失函数。感谢 @leecming 和 @ubamba98。

方案总结

我们解决方案的秘诀在于：Chun Ming 实现的强力后处理（提升了 CV 和 LB！），Udbhav 实现的巨大模型多样性（许多长序列模型！），以及 Chris 实现的加权框融合（在我之前的比赛中使用过这里）。所有内容都在本地 CV 上进行了微调，最终获得了第二名以及 35,000 美元的奖金！

Hugging Face 模型	CV	Public LB	Private LB	特殊说明
microsoft/deberta-large	706	710	721	使用 100% 训练数据训练
microsoft/deberta-large	699	706	719	添加 LSTM，添加 Jaccard loss
microsoft/deberta-v3-large	694	697	709	将慢速分词器转换为快速分词器
microsoft/deberta-xlarge	708	704	713
microsoft/deberta-v2-xlarge	699	700	716	将慢速分词器转换为快速分词器
allenai/longformer-large-4096	702	705	716	添加 LSTM head
LSG converted roberta	703	702	714	将 512 roberta 转换为 1536
funnel-transformer/large	688	689	708
google/bigbird-roberta-base	675	676	692	训练 1024 推理 1024
uw-madison/yoso-4096	652	655	668	lsh_backward=False

加权框融合 - CV 741, Public 727, Private 740

我们的最终方案包含了上面列出的 10 个模型。对于这 10 个模型中的每一个，我们都包含了 10 折交叉验证中的 3 折

2nd Place - Weighted Box Fusion and Post Process

第二名方案

方案总结

加权框融合 - CV 741, Public 727, Private 740

同比赛其他方案