第五名解决方案

作者：Oleksii Zhukov（MASTER） | 发布时间：2023年5月2日

大家好，

首先，我非常高兴甚至有点惊讶能在本次比赛中获得第五名。我是少数在公开榜和私有榜都取得优异成绩的参赛者之一。在某个阶段，我甚至曾位居公开榜第一名。

我认为能取得这个成绩的关键在于：我对本次比赛中合成数据与原始数据的差异感到不满，因此决定同时准备两套解决方案。我提交了两个不同的方案：一个使用混合数据，另一个仅使用合成数据。

第一个方案（使用混合数据）在公开榜得分43.598，私有榜得分0.5，这个不错的成绩本可以进入前30名。第二个方案（仅使用合成数据）在公开榜和交叉验证中得分较低（公开榜41.501）。但我坚持质疑合成数据与原始数据的相似性问题，最终这个方案在私有榜获得51.535的高分，帮助我取得了第五名。

在比赛最后几天，我持续优化方案，意识到有望获得好名次，决定在赛后分享我的工作。因此我创建了一个包含两个方案的笔记本，最终助力我获得第五名。

我已将最终方案版本固定在以下笔记本中，大家可以在那里阅读解决方案并在评论区提问：

虽然我还有约40-45个私有笔记本版本，但其中大多是数据探索和模型调参的零散记录，相信对他人帮助不大，因此选择不公开。上述链接的笔记本已包含所有必要内容。

感谢大家在公开工作和讨论中的贡献，感谢Kaggle举办本次比赛，期待未来继续参与更多比赛。

#5 Solution