返回列表

4th Place Solution (Simple)

536. Playground Series - Season 3, Episode 7 | playground-series-s3e7

开始: 2023-02-14 结束: 2023-02-27 数据算法赛
第4名方案(简单版)

第4名方案(简单版)

作者:Ryan Barretto | 排名:第4名

特征工程:

无。

交叉验证 (CV):

采用 10 折分层 K 折交叉验证。我对这次比赛感到很满意,因为与前几次不同,这次比赛的交叉验证分数与线上分数有相对稳定的相关性。我最终方案的 CV 分数是 0.90667。

模型:

LightGBM、XGBoost、CatBoost(当然都有)。每个模型都通过 Optuna 进行调优,以最大化验证集的 AUC 分数。

模型融合:

对于每一折,计算三个模型预测结果的最佳加权平均值。为了计算权重,我使用 scipy 来最小化负 AUC 分数。

后处理:

我使用了这个讨论区中建议的代码。

无效尝试:

  • 特征工程 —— 我添加的新特征对分数影响甚微。
  • 伪标签 —— 我尝试对原始测试集以及比赛的测试集进行伪标签处理,但没有成功(CV 有提升,但 LB 急剧下降,可能是过拟合)。软标签也不起作用。
同比赛其他方案