第24名解决方案

作者：Carlos Junior | 发布日期：2024年3月1日 | 竞赛排名：第24名

尽管第24名不像前三名那样耀眼，但我非常高兴能够取得这一成绩。我一直希望投入时间通过Kaggle提升技能，而这次不仅成功做到了，还获得了24名的奖励。

好了，情感表达就到这里，让我们进入解决方案的详细说明。

主要思路

该解决方案的思路基于@divyam6969的代码[1]。这基本上是一个XGBoost和LightGBM的集成模型。我没有添加任何特征，对数值特征使用了StdScaler。对于分类特征，在XGBoost中使用了MEstimateEncoder（直到这次比赛才知道这个方法），而在LightGBM中使用了OneHotEncoder。

交叉验证采用了10折分层K折（Stratified K-fold）。最关键的部分是调整集成模型的权重，这导致了排行榜（LB）上的差异。

未奏效的方法

诸如BMI之类的额外特征
Catboost未能提升交叉验证效果
其他类型的缩放器和分类编码方式
剪枝数据集

学到的经验

经典原则：相信交叉验证而非排行榜
实验追踪（本次比赛我使用了MLFlow来记录重要参数和指标）
随时可以参考其他解决方案，无论是扩展它们还是将想法融入自己的方案中

代码内核 https://www.kaggle.com/code/nicowxd/ps4e2-top-25-simple-ensemble-private-0-91067 参考文献 [1] https://www.kaggle.com/code/divyam6969/best-solution-multiclass-obesity-prediction 参考文献 [2] https://www.kaggle.com/code/ddosad/ps4e2-visual-eda-lgbm-obesity-risk

24th Place Solution

第24名解决方案

主要思路

未奏效的方法

学到的经验

同比赛其他方案