返回列表

[3rd place solution] Trust CV is all you need.

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测 数据算法赛
第三名解决方案:信任CV就够了

第三名解决方案:信任CV就够了

作者:Leon | 发布日期:2024-01-10

我想对主办方组织这次伟大的比赛表示感谢,并且感到非常幸运能够经历如此巨大的排名变动!!!!!!😄
我选择相信我的本地交叉验证(CV)分数,大约是0.580,正如我所料,排名发生了巨大变动。虽然我预料到会有变动,但从未想过能上升到第3名。

我的方法的关键组成部分是对齐使用预训练的Deberta回归模型生成的上下文特征

首先,使用重建的文章例如,重建的文章,我在Deberta底部添加了3个神经网络层来训练一个Deberta回归模型。这个过程类似于Feedback Prize - 英语学习的NLP处理流程,只是将字符替换为匿名字符q。更多细节请参考代码。训练这个Deberta回归模型可以达到约0.75的CV分数。

之后,我移除了Deberta回归模型的最后一层,使用倒数第二层的输出(一个128维的向量)作为语言模型(即Deberta)提取的上下文特征

基于在公开排行榜上表现良好的公开notebook中的特征(主要来自写作质量(融合笔记本) by @yunsuxiaozi),我训练了lightgbm/xgboost/catboost模型并保存了特征重要性,然后从每个模型中选出最重要的64/128/256个特征并取它们的并集。

最后,将公开notebook中选出的特征和我使用Deberta生成的上下文特征进行拼接。我训练了lightgbm/xgboost/catboost模型,其CV分数在0.588到0.595之间,以及神经网络模型(mlp/autoint/denselight),其CV分数在0.580-0.590之间。对于神经网络模型,感谢这个笔记本 by @alexryzhkov

由于时间限制,我只训练了一个Deberta-base模型作为上下文提取器,但我相信其他语言模型(例如Bert)甚至大型语言模型(例如llama)也值得尝试。由于Deberta和神经网络模型需要GPU资源,我没有考虑高效赛道。

感谢大家,如果有任何问题,欢迎随时评论。

同比赛其他方案