[第42名解决方案] 集成 + 分类

作者：Yuzupin | 竞赛排名：第38名 | 得票数：19

首先，我要感谢Kaggle和主办方组织这次伟大的竞赛。非常荣幸能够获得我们的第一枚银牌，并成为竞赛专家！

同时，我要向 @hiarsl、@awqatak、@mcpenguin、@alexryzhkov 以及其他众多参赛者表示感谢，感谢你们分享的出色成果和深刻见解。我们从你们身上学到了很多。最后但同样重要的是，我要感谢我的队友 @kensumida 和 @keisnoopy 的卓越贡献。谢谢！

解决方案

以下是我们的模型简要说明。

集成公共笔记本

在高分公共笔记本中，我们参考了以下内容：
・LGBM (X2) + NN | LB: 0.582 @cody11null
・Writing Quality(fusion_notebook) | LB: 0.580 @yunsuxiaozi
・LGBM (X2) + NN + Fusion | LB: 0.578 @kononenko
・VotingRegressor (7 models) + 165 Features [optuna] | LB: 0.580 @minhsienweng

我们通过以下方式融合了各个单模型：0.1 * (LGBM + NN) + 0.2 * (Public LGBM) + 0.3 * (fusion_notebook) + 0.4 * (VotingRegressor)。

高分作文的分类

由于评分指标是RMSE，一小部分异常值会对我们的分数产生很大影响。使用 @awqatak 的公共LGBM模型，我们评估了边缘目标（0.5或6.0分）对分数降低的影响程度。如下所示，尽管这些目标仅占训练数据的1.7%，但它们对误差的影响却更大。

这是因为LGBM模型在预测这些边缘值方面表现不佳，其最小和最大预测值分别为1.3和5.4。

为了解决这个问题，我们单独训练了一个LGBM分类模型来检测6.0分的作文，并通过在6.0分的概率较高时替换分数来对集成提交进行后处理。ROC-auc约为0.90，这足以提升我们的模型性能。在我们的最终方案中，将预测值替换为5.5对我们很有效。

这个想法源于关于RMSE性质的讨论以及 @alexryzhkov 提出的关于应用分类可能性的建议。谢谢！

[42nd Place Solution] Ensemble + Classification

[第42名解决方案] 集成 + 分类

解决方案

集成公共笔记本

高分作文的分类

同比赛其他方案