返回列表

15th solution feature selection and trust your CV

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测 数据算法赛
第15名解决方案:特征选择与相信交叉验证

第15名解决方案:特征选择与相信交叉验证

作者: Jie Wu (Kaggle Grandmaster)
发布日期: 2024年1月13日
比赛排名: 第15名
奖项: 金牌

祝贺每一位在比赛中获胜或有所收获的参赛者!

很遗憾我们最终未能获得金牌,但我们已经选出了最好的私有榜单结果。我们的最佳成果来自于两组特征和模型的筛选。我们的核心策略是:特征选择 + 相信交叉验证

特征概览

  • P1(特征组1、2、3):来自我的队友,但遗憾的是他们因工作繁忙无法详细撰写说明。
  • P2:由我负责,包含4个特征子组(feature4、feature5、feature6和feature8)。通过特征选择,我们将CV分数提升了约0.008,但在公开榜单上降低了0.003。

特征4/5/6/8详细说明

  • Feature4:基于公开0.584分数的notebook,我进行了特征选择并保留了130个特征。
  • Feature5(精选45个特征):我的原创特征,大部分借鉴了公开notebook,并增加了以下特征:
    • TF-IDF构建的文章特征:
    • 事件TF-IDF特征:
    • "word_comma_cursor"特征:
  • Feature6(精选60个特征):在feature5基础上增加了突发特征(burst features)。
  • Feature8:基于公开0.582/581分数的特征,通过特征选择保留了前80个特征。

最终结果

  • 融合结果:0.5 × 队友结果(CV: 0.587, 公开榜: 0.576, 私有榜: 0.566) + 0.5 × 我的结果(CV: 约0.590, 公开榜: 0.579, 私有榜: 0.568)
  • 我的结果构成:
    • 0.4 × feature4(130特征)
    • 0.125 × feature5(45特征)
    • 0.175 × feature6(60特征)
    • 0.3 × feature8(80特征)
  • 模型融合:feature5和feature6使用了5折交叉验证,结合LGB、CAT、XGB和SVR模型,通过贝叶斯优化选择最佳权重。
  • 多种子策略:feature4/5/6/8使用了5个随机种子:
    • feature4 CV: ~0.6, 公开榜: 0.587
    • feature5 CV: 0.592, 公开榜: 0.590
    • feature6 CV: 0.591, 公开榜: 0.588
    • feature8 CV: 0.608, 公开榜: 0.584
    融合feature4/5/6/8后,最终获得公开榜0.579、私有榜0.568的成绩。
同比赛其他方案