返回列表

#8 Private LB #7 Public - Solution Approach

580. Playground Series - Season 3, Episode 24 | playground-series-s3e24

开始: 2023-10-24 结束: 2023-11-13 临床决策支持 数据算法赛
第8名私有排行榜 第7名公开排行榜 - 解决方案方法

第8名私有排行榜 第7名公开排行榜 - 解决方案方法

作者:Minato Namikaze(GRANDMASTER)
发布时间:2023-11-14
竞赛排名:第8名

大家好!

感谢Kaggle举办这场比赛,本次赛题的数据集规模使得公开排行榜与私有排行榜的结果保持一致。我要感谢其他参赛者的贡献以及公开可用的代码笔记本。

特别感谢以下参与者,他们的代码笔记本表现出色且在本场比赛中非常活跃:

  • @paddykb,他的代码笔记本为包括我在内的许多其他笔记本的预测结果做出了贡献
  • @cv13j0,非常出色的参考笔记本
  • @ravi20076,感谢你一如既往的贡献,再次祝贺!

本方案基于我公开的代码笔记本:

我的方法:

数据处理

感谢 @paddykb 提供的数据预处理方案

特征工程

  • 所有出现频率大于2的特征都被视为离散特征,并应用了多种编码技术。数据集规模足够大,能够支持这种方法
  • 基于性能标准,使用暴力搜索方法为现有特征创建算术组合的新特征
  • 从CatBoost、XGBoost、LightGBM中选择排名前N(N为50或100)的特征并取并集。更高的N值会导致"运行时间超限错误"

建模框架

  • 使用Optuna集成XGBoost、CatBoost、LightGBM、人工神经网络、逻辑回归和决策树,以最大化AUC分数
  • 最近加入的ANN集成框架表现良好
  • 我的预测结果再次与公开可用的预测进行集成,使用公开排行榜上的排名作为权重

经验总结

  • 运行我的笔记本需要很长时间,许多提交因运行时间限制而中断
  • 许多笔记本使用其他笔记本的预测结果,并基于试错方法提供权重,关于这是否是正确方法存在讨论。我的想法是简单地使用来自不同特征工程数据的结果来进行泛化预测。然而,我建议采用更合理的权重分配方式,因为我们只有公开排行榜的部分信息,私有排行榜可能出现任何情况
  • 对于难以识别未使用他人预测的真实笔记本的用户,一个方法是查看输入数据集的数量,通常包括主数据集和PS系列中的原始数据集

谢谢大家!祝下一场比赛一切顺利!

祝大家排灯节快乐!

同比赛其他方案