[3rd place solution] Trust CV is all you need.

第三名解决方案：信任CV就够了

作者：Leon | 发布日期：2024-01-10

我想对主办方组织这次伟大的比赛表示感谢，并且感到非常幸运能够经历如此巨大的排名变动!!!!!!😄
我选择相信我的本地交叉验证（CV）分数，大约是0.580，正如我所料，排名发生了巨大变动。虽然我预料到会有变动，但从未想过能上升到第3名。

我的方法的关键组成部分是对齐使用预训练的Deberta回归模型生成的上下文特征。

首先，使用重建的文章例如，重建的文章，我在Deberta底部添加了3个神经网络层来训练一个Deberta回归模型。这个过程类似于Feedback Prize - 英语学习的NLP处理流程，只是将字符替换为匿名字符q。更多细节请参考代码。训练这个Deberta回归模型可以达到约0.75的CV分数。

之后，我移除了Deberta回归模型的最后一层，使用倒数第二层的输出（一个128维的向量）作为语言模型（即Deberta）提取的上下文特征。

基于在公开排行榜上表现良好的公开notebook中的特征（主要来自写作质量（融合笔记本） by @yunsuxiaozi），我训练了lightgbm/xgboost/catboost模型并保存了特征重要性，然后从每个模型中选出最重要的64/128/256个特征并取它们的并集。

最后，将公开notebook中选出的特征和我使用Deberta生成的上下文特征进行拼接。我训练了lightgbm/xgboost/catboost模型，其CV分数在0.588到0.595之间，以及神经网络模型（mlp/autoint/denselight），其CV分数在0.580-0.590之间。对于神经网络模型，感谢这个笔记本 by @alexryzhkov。

由于时间限制，我只训练了一个Deberta-base模型作为上下文提取器，但我相信其他语言模型（例如Bert）甚至大型语言模型（例如llama）也值得尝试。由于Deberta和神经网络模型需要GPU资源，我没有考虑高效赛道。

所有代码如下：

训练：对于每个模型，我使用10到15个不同的随机种子和5到10折（StratifiedKFold）进行训练。

感谢大家，如果有任何问题，欢迎随时评论。