592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality
首先,我要感谢Kaggle和主办方组织这次伟大的竞赛。非常荣幸能够获得我们的第一枚银牌,并成为竞赛专家!
同时,我要向 @hiarsl、@awqatak、@mcpenguin、@alexryzhkov 以及其他众多参赛者表示感谢,感谢你们分享的出色成果和深刻见解。我们从你们身上学到了很多。最后但同样重要的是,我要感谢我的队友 @kensumida 和 @keisnoopy 的卓越贡献。谢谢!
以下是我们的模型简要说明。

在高分公共笔记本中,我们参考了以下内容:
・LGBM (X2) + NN | LB: 0.582 @cody11null
・Writing Quality(fusion_notebook) | LB: 0.580 @yunsuxiaozi
・LGBM (X2) + NN + Fusion | LB: 0.578 @kononenko
・VotingRegressor (7 models) + 165 Features [optuna] | LB: 0.580 @minhsienweng
我们通过以下方式融合了各个单模型:0.1 * (LGBM + NN) + 0.2 * (Public LGBM) + 0.3 * (fusion_notebook) + 0.4 * (VotingRegressor)。
由于评分指标是RMSE,一小部分异常值会对我们的分数产生很大影响。使用 @awqatak 的公共LGBM模型,我们评估了边缘目标(0.5或6.0分)对分数降低的影响程度。如下所示,尽管这些目标仅占训练数据的1.7%,但它们对误差的影响却更大。

这是因为LGBM模型在预测这些边缘值方面表现不佳,其最小和最大预测值分别为1.3和5.4。
为了解决这个问题,我们单独训练了一个LGBM分类模型来检测6.0分的作文,并通过在6.0分的概率较高时替换分数来对集成提交进行后处理。ROC-auc约为0.90,这足以提升我们的模型性能。在我们的最终方案中,将预测值替换为5.5对我们很有效。
这个想法源于关于RMSE性质的讨论以及 @alexryzhkov 提出的关于应用分类可能性的建议。谢谢!