651. Playground Series - Season 5, Episode 5 | playground-series-s5e5
距离我上次参加 Kaggle 比赛至少已经一年了。我本来打算坚持到最后,但中途不得不离开,部分原因是工作优先级占了上风,部分原因是这个 Playground 系列赛一如既往,有好有坏。很高兴知道我完全没有生疏 :)
我做了四项特征工程:
Sex 特征:M-Estimate Encoder。PolynomialFeatures 生成特征的多项式组合包括它们的交互项。这是因为线性回归需要很多特征才能表现相对良好,而神经网络不需要,因为你可以将第一层的单元设置得足够高以达到该目的。如前所述,我使用了神经网络 (Tensorflow)、线性回归、ridge 和 plain CatBoost。我使用的其他模型除了编码外没有任何特征工程,分别是 Random Forest, XGBoost, LightGBM, 和两个具有不同 bootstrap 类型的 CatBoost。这 6 个模型除了 Random Forest 外都用 Optuna 进行了调优。总的来说,这只是 9 个模型。我当然可以像其他人那样做得更多 :)
我首先使用 Ridge 检查本地 CV 分数,看看需要排除哪些模型。之后我使用 Optuna 找到实际的最佳权重。我本来打算尝试 Hill Climbing,但在放弃之前我太懒了。