返回列表

Top 10 Solution

541. Playground Series - Season 3, Episode 10 | playground-series-s3e10

开始: 2023-03-07 结束: 2023-03-20 物理与天文 数据算法赛

前 10 名解决方案

作者: Sergey Saharovskiy (Grandmaster) | 发布时间: 2023-03-21

恭喜本次比赛的获胜者!排行榜的竞争非常激烈。

我的解决方案:

数据集:
我仅使用合成数据进行训练。

交叉验证 (CV):
15 折分层交叉验证 (15 Fold stratified)。

递归特征消除 (RFE):
我没有移除任何特征。

递归特征添加 (RFA):
我添加了以下有效的特征 -
['EK_diff_Mean_DMSNR_Curve', 'Mean_DMSNR_Curve_diff_EK', 'Mean_DMSNR_Curve_mul_EK_DMSNR_Curve', 'Mean_DMSNR_Curve_mul_Skewness_DMSNR_Curve', 'Mean_DMSNR_Curve_div_SD_DMSNR_Curve', 'SD_DMSNR_Curve_div_Mean_DMSNR_Curve'],

我是通过两个单独的模型来完成这一过程的,并且只添加了能同时改善这两个模型的特征。

预处理:
我根据 @dmitryuarov 在此处的建议移除了一些观测值。

集成:
在不同种子 (seeds) 的分层 K 折上集成了 7 个 XGB 模型,每次使用不同的 XGB 参数。

无效尝试:

LGBM、神经网络 (NN)、随机森林 (RF)、带有全局细化的随机森林。

本可以做得更好的地方:
我当时没有信任 @paddykb 集成模型的提交结果。它的 Private 分数为 0.0307,Public 分数为 0.03101(直接进入前 2 名)。

同比赛其他方案