664. Playground Series - Season 5, Episode 8 | playground-series-s5e8
你好 Kaggle 社区,
我想分享一下我的最终解决方案摘要,这让我在本次比赛中进入了前 10 名。🚀
主要思想是在第一层最大化多样性,并在第二层使用强大的元模型来充分利用不同的预测模式。
对于分类变量,我使用了目标编码(target encoding)和计数编码(count encoding)。这使得线性模型和神经网络能够捕捉到有价值的信息,而不会导致维度爆炸。
我还尝试保留分类特征的原始格式,供原生处理它们的模型使用,如 CatBoost 和 LightGBM。
归一化和标准化(standardization)仅应用于对特征尺度敏感的模型(例如:MLP、KNN 和线性回归)。
所有模型均通过 K 折交叉验证(KFold)训练以生成 OOF(Out-of-Fold)预测。
亮点是使用 NODE (Neural Oblivious Decision Ensembles) 作为元模型。
它的表现优于其他替代方案,如 Hillclimb、Ridge、Lasso、使用 Optuna 加权的集成,甚至是第二层的加权组合。