580. Playground Series - Season 3, Episode 24 | playground-series-s3e24
大家好,
我要感谢Kaggle举办这场精彩的比赛,以及分享了许多技巧(见下文)和优秀模型(见下文)的选手社区。祝贺获奖者们!
也祝贺@kailai,他在公共排行榜上几乎一直保持着第一名的位置,而且他没有过度拟合公共排行榜:只有3次提交。你本应该成为冠军的!
我的策略是避免过度拟合和运气:公共排行榜仅使用了20%的测试数据构建,这是一场五位数的竞争。我想在私有排行榜上进入前10%(就像我在前两次PS比赛中所做的那样,但使用的工具包不同)。
我的解决方案基于@oscarm524在上一场比赛初期提出的一个技巧。他说服我尝试爬山算法,但要采用稳健的CV策略。我读过@cdeotte关于爬山算法的文章,这并不是私有排行榜的第一名,而只是公共排行榜的第一名。
所以我就像我在本次比赛初期所解释的那样,使用了带CV的爬山算法,并做了一些小改进(见下文)。
首先,我存储了25个不同的OOF预测结果,来自我自己的或公开的notebook。通过爬山算法和CV,我选择了7个OOF的集成:
hearing(left)、hearing(right)、urine protein,随机网格搜索,对XGB的网格搜索使用GPU,对20个最佳模型使用4折和RepeatedStratifiedKFold)我用5折训练爬山算法,并注意:
关于本次比赛中爬山算法的改进:
在我为爬山算法和CV添加并行计算后,@siukeitin帮助我使用numpy优化了爬山算法的AUC计算。
再见,祝你们玩得开心!