484. Tabular Playground Series - Apr 2022 | tabular-playground-series-apr-2022
首先,我要感谢 Kaggle 组织了这样有趣且无数据泄露的比赛。
我的最终解决方案是 40 个模型的堆叠,每个模型在本地交叉验证(CV)和排行榜(LB)上的得分都超过了 0.96。我认为我的堆叠方案没有什么特别值得分享的地方。然而,我的一个单模型取得了 0.987(LB)、0.989(Private LB)和 0.963(CV)的成绩,我认为这可能是本次比赛中最好的单模型,仅凭它就能在本次比赛中获得第 6 名。
与公开的方案相比,我没有使用新特征,除了通过工程化的 count 特征对 sensor_02 读数进行分组外,但我认为这对最终得分没有起到主要作用。
我使用了 StratifiedKFold 方法,在将数据帧的 Numpy 形式重塑为 (-1, 60, train.shape[-1]) 后,对标签进行分层。在这种情况下,你不需要关心分组,因为每个索引现在本身就是一个完整的组。
我的最佳单模型基于 4x2D-CNN + GRUs + GMP。该模型可以在这里找到,提交文件可以在这里找到。
在训练过程中,我注意到每个折叠输出在 AUC 方面存在差异。因此,每个折叠运行了 3 次,这三次迭代中最好的一次用于最终的最佳单模型。剩下的 2 次迭代随后也被用作元学习器的元特征。
我保存了我所有好模型(0.96+)的元特征,并在它们之上构建了一个最终的 LGBM 模型。这一步使得分数提升了 0.00130。我的最终 CV AUC 分数是 0.99。最终堆叠代码可以在这里找到。