返回列表

2nd place solution - brief summary

527. Playground Series Season 3, Episode 1 | playground-series-s3e1

开始: 2023-01-03 结束: 2023-01-09 数据算法赛
第二名方案 - 简要总结

第二名方案 - 简要总结

作者:jcerpent
发布时间:2023-01-10

首先,感谢主办方举办这场有趣且赛程紧凑的比赛。同时也感谢比赛中众多的 Notebook 贡献者!!!🎉

我的最终方案是对一些公开贡献的成果与我个人想法的融合集成。

  • 我觉得许多公开的 Notebook 已经很好地探索了 Boosting 方法,因此我设计的 Boosting 方案是基于这些方法的;如前所述,利用坐标计算距离在其中起了很大作用。
  • 我注意到许多人将外部数据添加到他们的数据集中,并使用包含这些数据的全集计算 CV 分数。由于比赛数据是原始数据集的改编版,我认为这就是为什么一些 CV 分数与线上成绩不太一致的原因。相反,我在原始数据上进行了 CV 划分,然后将外部数据添加到训练集中。这强制在提供的数据集上进行验证,能更好地代表 LB 分数。将此方法与在完整合并数据上进行划分的方法进行集成,似乎大大增加了多样性并提高了 LB 成绩。
  • 最后,我还在 Keras 中使用 keras_tuner 训练了一个神经网络(NN),使用了标准特征 + 坐标特征。本地 CV 仅为 0.59,但这为最终的融合增加了显著的多样性。模型摘要如下所示:
Model Summary
同比赛其他方案