这是一个简单的解决方案,可以帮助你获得第 29 名的成绩。
第一阶段
1) 通过拟合 CatBoostClassifier 来估计 EFS 的概率。
2) 使用 CatBoostRegressor 估计 EFS==1 的子样本的 EFS_TIME。
1) 和 2) 中的估计值是使用 10 折交叉验证获得的 OOF(袋外)预测。
第二阶段
结合第一阶段的估计值创建一个最大化 一致性指数(编辑:不是 CI,而是竞赛指标)的指标。一个简单的方法是取 EFS 概率与 EFS_TIME 的比率,这将给出约 0.69 的 CI 竞赛指标。
一个更复杂的方法(可获得第 29 名)是使用 Optuna 寻找最佳系数 $$a,b,c,d,e,f$$,以最大化以下比率的 CI 竞赛指标:
$$ \frac{a*efs^3 + b*efs^2 + c*efs + 0.001}{d*efs\_time^3 + e*efs\_time^2 + f*efs\_time + 0.001}$$
最终解决方案使用了第一阶段的 10 个模型集成,以及第二阶段获得的相应系数。