返回列表

[42nd Place Solution] Ensemble + Classification

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测 数据算法赛

[第42名解决方案] 集成 + 分类

作者:Yuzupin | 竞赛排名:第38名 | 得票数:19

首先,我要感谢Kaggle和主办方组织这次伟大的竞赛。非常荣幸能够获得我们的第一枚银牌,并成为竞赛专家!

同时,我要向 @hiarsl@awqatak@mcpenguin@alexryzhkov 以及其他众多参赛者表示感谢,感谢你们分享的出色成果和深刻见解。我们从你们身上学到了很多。最后但同样重要的是,我要感谢我的队友 @kensumida@keisnoopy 的卓越贡献。谢谢!

解决方案

以下是我们的模型简要说明。

集成公共笔记本

在高分公共笔记本中,我们参考了以下内容:
・LGBM (X2) + NN | LB: 0.582 @cody11null
・Writing Quality(fusion_notebook) | LB: 0.580 @yunsuxiaozi
・LGBM (X2) + NN + Fusion | LB: 0.578 @kononenko
・VotingRegressor (7 models) + 165 Features [optuna] | LB: 0.580 @minhsienweng

我们通过以下方式融合了各个单模型:0.1 * (LGBM + NN) + 0.2 * (Public LGBM) + 0.3 * (fusion_notebook) + 0.4 * (VotingRegressor)。

高分作文的分类

由于评分指标是RMSE,一小部分异常值会对我们的分数产生很大影响。使用 @awqatak 的公共LGBM模型,我们评估了边缘目标(0.5或6.0分)对分数降低的影响程度。如下所示,尽管这些目标仅占训练数据的1.7%,但它们对误差的影响却更大。

这是因为LGBM模型在预测这些边缘值方面表现不佳,其最小和最大预测值分别为1.3和5.4。

为了解决这个问题,我们单独训练了一个LGBM分类模型来检测6.0分的作文,并通过在6.0分的概率较高时替换分数来对集成提交进行后处理。ROC-auc约为0.90,这足以提升我们的模型性能。在我们的最终方案中,将预测值替换为5.5对我们很有效。

这个想法源于关于RMSE性质的讨论以及 @alexryzhkov 提出的关于应用分类可能性的建议。谢谢!

同比赛其他方案