547. Playground Series - Season 3, Episode 13 | playground-series-s3e13
大家好,
首先,我非常高兴甚至有点惊讶能在本次比赛中获得第五名。我是少数在公开榜和私有榜都取得优异成绩的参赛者之一。在某个阶段,我甚至曾位居公开榜第一名。
我认为能取得这个成绩的关键在于:我对本次比赛中合成数据与原始数据的差异感到不满,因此决定同时准备两套解决方案。我提交了两个不同的方案:一个使用混合数据,另一个仅使用合成数据。
第一个方案(使用混合数据)在公开榜得分43.598,私有榜得分0.5,这个不错的成绩本可以进入前30名。第二个方案(仅使用合成数据)在公开榜和交叉验证中得分较低(公开榜41.501)。但我坚持质疑合成数据与原始数据的相似性问题,最终这个方案在私有榜获得51.535的高分,帮助我取得了第五名。
在比赛最后几天,我持续优化方案,意识到有望获得好名次,决定在赛后分享我的工作。因此我创建了一个包含两个方案的笔记本,最终助力我获得第五名。
我已将最终方案版本固定在以下笔记本中,大家可以在那里阅读解决方案并在评论区提问:
https://www.kaggle.com/code/zhukovoleksiy/5-solution-ps3e13-ensemble
虽然我还有约40-45个私有笔记本版本,但其中大多是数据探索和模型调参的零散记录,相信对他人帮助不大,因此选择不公开。上述链接的笔记本已包含所有必要内容。
感谢大家在公开工作和讨论中的贡献,感谢Kaggle举办本次比赛,期待未来继续参与更多比赛。