返回列表

5th Place Solution | Learnings

606. Playground Series - Season 4, Episode 4 | playground-series-s4e4

开始: 2024-04-01 结束: 2024-04-30 生命科学 数据算法赛

第5名方案 | 经验教训

作者:Minato Namikaze (Grandmaster)
排名:第5名
发布日期:2024-05-01

大家好,

这是一场相对稳定的比赛,由于数据量大且采用 RMSLE 评估指标,排名波动较小。很荣幸在此分享我的参赛经验。

首先,这场比赛与 Crab Age Prediction 非常相似。有趣的是,我在那场比赛的 Public LB 上排名第1,却在 Private LB 降到第40名。因此,我在本次比赛中采用了相似的方法来构造新特征。

感谢以下两位公开 Notebooks 的出色工作,它们在比赛中对我帮助很大:

虽然还有许多高分的公开 Notebook,但它们的分数大多是基于其他工作的融合,因此本次没有采用。

方法

方法 详情
新特征 顶部表面积、失水率、测量比率、鲍鱼密度、BMI
特征工程 离散&分类编码、数值特征变换
模型 XGBoost、CatBoost、LightGBM、神经网络(ANN)

经验教训

  1. 使用 15 折和 20 折交叉验证比 5 折显著提升了分数。
  2. 对超参数进行细致调优,效果非常明显。
  3. 在集成模型中使用神经网络的能力有了大幅提升。
  4. 我只使用 调和平均(Harmonic Mean) 来融合结果,这在 Private LB 中获取优势并防止过拟合非常关键。

感谢大家的支持,祝大家在下一场比赛中取得好成绩!

学习愉快!

同比赛其他方案