15th solution feature selection and trust your CV

第15名解决方案：特征选择与相信交叉验证

作者: Jie Wu (Kaggle Grandmaster)
发布日期: 2024年1月13日
比赛排名: 第15名
奖项: 金牌

祝贺每一位在比赛中获胜或有所收获的参赛者！

很遗憾我们最终未能获得金牌，但我们已经选出了最好的私有榜单结果。我们的最佳成果来自于两组特征和模型的筛选。我们的核心策略是：特征选择 + 相信交叉验证。

特征概览

P1（特征组1、2、3）：来自我的队友，但遗憾的是他们因工作繁忙无法详细撰写说明。
P2：由我负责，包含4个特征子组（feature4、feature5、feature6和feature8）。通过特征选择，我们将CV分数提升了约0.008，但在公开榜单上降低了0.003。

Feature4：基于公开0.584分数的notebook，我进行了特征选择并保留了130个特征。
Feature5（精选45个特征）：我的原创特征，大部分借鉴了公开notebook，并增加了以下特征：
- TF-IDF构建的文章特征：
- 事件TF-IDF特征：
- "word_comma_cursor"特征：
Feature6（精选60个特征）：在feature5基础上增加了突发特征（burst features）。
Feature8：基于公开0.582/581分数的特征，通过特征选择保留了前80个特征。

融合结果：0.5 × 队友结果（CV: 0.587, 公开榜: 0.576, 私有榜: 0.566） + 0.5 × 我的结果（CV: 约0.590, 公开榜: 0.579, 私有榜: 0.568）
我的结果构成：
- 0.4 × feature4（130特征）
- 0.125 × feature5（45特征）
- 0.175 × feature6（60特征）
- 0.3 × feature8（80特征）
模型融合：feature5和feature6使用了5折交叉验证，结合LGB、CAT、XGB和SVR模型，通过贝叶斯优化选择最佳权重。
多种子策略：feature4/5/6/8使用了5个随机种子：
- feature4 CV: ~0.6, 公开榜: 0.587
- feature5 CV: 0.592, 公开榜: 0.590
- feature6 CV: 0.591, 公开榜: 0.588
- feature8 CV: 0.608, 公开榜: 0.584
融合feature4/5/6/8后，最终获得公开榜0.579、私有榜0.568的成绩。