返回列表

24th Place Solution

597. Playground Series - Season 4, Episode 2 | playground-series-s4e2

开始: 2024-02-01 结束: 2024-02-29 临床决策支持 数据算法赛

第24名解决方案

作者:Carlos Junior | 发布日期:2024年3月1日 | 竞赛排名:第24名

尽管第24名不像前三名那样耀眼,但我非常高兴能够取得这一成绩。我一直希望投入时间通过Kaggle提升技能,而这次不仅成功做到了,还获得了24名的奖励。

好了,情感表达就到这里,让我们进入解决方案的详细说明。

主要思路

该解决方案的思路基于@divyam6969的代码[1]。这基本上是一个XGBoost和LightGBM的集成模型。我没有添加任何特征,对数值特征使用了StdScaler。对于分类特征,在XGBoost中使用了MEstimateEncoder(直到这次比赛才知道这个方法),而在LightGBM中使用了OneHotEncoder。

交叉验证采用了10折分层K折(Stratified K-fold)。最关键的部分是调整集成模型的权重,这导致了排行榜(LB)上的差异。

未奏效的方法

  • 诸如BMI之类的额外特征
  • Catboost未能提升交叉验证效果
  • 其他类型的缩放器和分类编码方式
  • 剪枝数据集

学到的经验

  • 经典原则:相信交叉验证而非排行榜
  • 实验追踪(本次比赛我使用了MLFlow来记录重要参数和指标)
  • 随时可以参考其他解决方案,无论是扩展它们还是将想法融入自己的方案中
同比赛其他方案