第15名解决方案:特征选择与相信交叉验证
第15名解决方案:特征选择与相信交叉验证
作者: Jie Wu (Kaggle Grandmaster)
发布日期: 2024年1月13日
比赛排名: 第15名
奖项: 金牌
祝贺每一位在比赛中获胜或有所收获的参赛者!
很遗憾我们最终未能获得金牌,但我们已经选出了最好的私有榜单结果。我们的最佳成果来自于两组特征和模型的筛选。我们的核心策略是:特征选择 + 相信交叉验证。
特征概览
- P1(特征组1、2、3):来自我的队友,但遗憾的是他们因工作繁忙无法详细撰写说明。
- P2:由我负责,包含4个特征子组(feature4、feature5、feature6和feature8)。通过特征选择,我们将CV分数提升了约0.008,但在公开榜单上降低了0.003。
特征4/5/6/8详细说明
- Feature4:基于公开0.584分数的notebook,我进行了特征选择并保留了130个特征。
- Feature5(精选45个特征):我的原创特征,大部分借鉴了公开notebook,并增加了以下特征:
- TF-IDF构建的文章特征:

- 事件TF-IDF特征:

- "word_comma_cursor"特征:

- Feature6(精选60个特征):在feature5基础上增加了突发特征(burst features)。
- Feature8:基于公开0.582/581分数的特征,通过特征选择保留了前80个特征。
最终结果
- 融合结果:0.5 × 队友结果(CV: 0.587, 公开榜: 0.576, 私有榜: 0.566) + 0.5 × 我的结果(CV: 约0.590, 公开榜: 0.579, 私有榜: 0.568)
- 我的结果构成:
- 0.4 × feature4(130特征)
- 0.125 × feature5(45特征)
- 0.175 × feature6(60特征)
- 0.3 × feature8(80特征)
- 模型融合:feature5和feature6使用了5折交叉验证,结合LGB、CAT、XGB和SVR模型,通过贝叶斯优化选择最佳权重。
- 多种子策略:feature4/5/6/8使用了5个随机种子:
- feature4 CV: ~0.6, 公开榜: 0.587
- feature5 CV: 0.592, 公开榜: 0.590
- feature6 CV: 0.591, 公开榜: 0.588
- feature8 CV: 0.608, 公开榜: 0.584
融合feature4/5/6/8后,最终获得公开榜0.579、私有榜0.568的成绩。