第24名解决方案 🏅 - 我的第二次 Kaggle 比赛 🔥
第24名解决方案 🏅 - 我的第二次 Kaggle 比赛 🔥
作者:ryan | 排名:第24名
第24名!🏅 我最近决定重返 Kaggle 竞赛,我对这次的表现感到非常满意。一年前,我参加了 Sartorius Cell Instance Segmentation 竞赛,那是我过去两年中做的最有成就感的事情之一。在如此短的时间内学到的信息量令人惊讶。这次比赛也是如此。在这次比赛之前,我没有参加过任何表格类竞赛,但我又一次学到了大量的知识。为此,我要感谢 Kaggle 团队组织这些比赛,并感谢所有参赛者让像我这样的新手也能享受比赛的乐趣。
我要特别感谢以下四个我在比赛期间不断参考的笔记本和讨论,没有这些我无法完成比赛(请给他们点赞):
我的解决方案:
- 坦率地说,我没有做什么开创性的事情。我的解决方案包括使用 10 折交叉验证集成的 XGBoost、LightGBM 和 CatBoost。我使用 Optuna 对 XGBoost 模型进行了一些轻量级的超参数优化,但没有对 LightGBM 或 CatBoost 模型参数进行优化。
- 特征工程:
- 到任何人口超过 500,000 的加利福尼亚城市的距离。
- 此处列出的编码技巧。
- 此讨论中列出的到海岸线特征的距离。
- PCA 坐标。
- 旋转坐标 (15, 30, 45)。
- 极坐标。
- 交叉验证 (CV):为了计算我的 CV 分数,我使用了训练数据的 80/20 分割,并排除了“原始”数据集以获得更准确的分数。
- 信任本地 CV:在尝试了各种模型和特征工程想法后,我决定相信我的 CV 分数,并确定公共排行榜上的高分要么是做了一些疯狂的特征工程,要么是稍微过拟合了。相信我的 CV 是正确的选择,因为我在私人排行榜上的排名上升了 24 位 :)
这很可能只是我今年参加的众多比赛中的第一场,希望大家以后能经常看到我。我的目标是继续参加这些表格系列赛,直到我在其中一场中获得前 3 名(Kaggle 周边礼品,我来了)。