592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality
由于公开的Notebook已经提供了使用操作特征的强大基线(@awqatak 的 Silver Bullet Notebook),我将大部分时间用于尝试通过以下Notebook从匿名化论文中创建特征:@jasonheesanglee 的 Notebook 和 @kawaiicoderuwu 的 Notebook。特别感谢众多其他知识渊博且资源丰富的Notebook作者!
从 @awqatak 的165个特征中,通过特征重要性选择排名前100的LGBM特征。验证策略采用5折交叉验证(Group-Kfold),在CV和LB之间提供了良好的正相关性。
观察标签分布时,发现其均值为3.711。我创建了一个新标签"binary label",将原始标签编码为:若标签≥3.7则为1,否则为0。该二分类标签分布均衡(0: 1224, 1: 1247),适合训练分类模型。快速验证测试:若将binary label作为特征泄露,CV可降至0.4X。因此准确预测该编码标签(0或1)能显著提升论文质量预测效果!
为利用论文作为特征,我们在q's上训练了一个简单的自定义BPE分词器生成BPE标记,随后分别用于CountVectorizer和TfidfVectorizer(ngram_range=(1,3))。最后训练两个LGBM模型,并使用它们的二分类和回归预测结果作为新特征。
所有模型使用相同特征并通过optuna调优,最终权重采用nelder-mead优化确定:
CV得分:0.568,公开榜:0.573,私有榜:0.562