554. Playground Series - Season 3, Episode 15 | playground-series-s3e15
这里一直是向社区成员学习的好地方,我也在此贡献自己的一份力量。
真是个惊喜!我最近才开始在 Kaggle 上参加比赛。我曾希望前进几名,但没想到能一举夺冠。正如 @iqbalsyahakbar 所说,这次变动非常巨大。

利用领域知识进行插补和范围截断: @shalfey 在比赛末期提到了这一点。我意识到,如果可以恰当地对“author”列进行插补,我们就可以根据“author”的值对其他特征的值进行截断,从而减少数据集中的噪声。此外,这一方法最初由 @arunklenin 在一个评论主题中提出。
对“author”和“geometry”列进行类别编码。
迭代插补:使用树模型迭代地填充缺失值。感谢 @arunklenin 分享了这个方法 这里。我很好奇你是如何调整这些参数的,因为它们效果非常好。
使用 Optuna 调整模型参数。
集成多样化的模型,包括基于树的方法和神经网络等。尽管其中某些模型性能较差,但它们的工作方式增加了集成模型的多样性,正如 @ambrosm 在以往多次比赛中所指出的。单一最佳模型的 CV 分数为 0.0730,而集成后将其降低至 0.0726。

正确的交叉验证:10 折交叉验证,使我的 CV 分数达到 集成 RMSE 分数 0.07265 ± 0.00202。
感谢所有参与并分享有趣想法的各位。下次再见!