返回列表

17th Place Solution| AutoML + Unicorn's pollen + Lack of sleep

595. Playground Series - Season 4, Episode 1 | playground-series-s4e1

开始: 2024-01-02 结束: 2024-01-31 用户画像与运营 数据算法赛
第17名解决方案 | AutoML + 独角兽的花粉 + 睡眠不足

第17名解决方案 | AutoML + 独角兽的花粉 + 睡眠不足

团队:The Churn Busters

作者:Samvel Kocharyan(Kaggle Master)、Vilius Pėstininkas、Arslan Gabdulkhakov

发布时间:2024年2月1日

竞赛排名:第17名

得票数:11票

背景

S4E1 Playground 赛道"银行客户流失数据集二分类问题"。

方法概述

我们的最终提交方案结合了AutoGluon三层堆叠模型(我们称之为"科学怪人II")以及我们之前模型和一些公开笔记书的平均值集合。

最终提交方案使用了从OpenFE获得的精简特征集。通过BorutaSHAP和RFECV进行了特征筛选,最终模型使用了103个特征。

提交详情

我们选择了两个提交方案:

  • WeightedEnsemble_L3:公开榜0.89372 | 私有榜0.89637 | CV 0.898947
  • 获胜方案(私有榜0.90106 | 公开榜0.89687):在最后几小时通过平均0.89673和0.89565两个模型得到

科学怪人II架构

集成模型架构图

哪些方法有效?

  • 特征生成(470个)和特征筛选(103个)
  • 数据为中心的方法(CleanLab)
  • 数据重标注
  • AutoGluon 1.0.1(感谢@innixma
  • BorutaSHAP框架和Scikit-learn的RFECV
  • @paddykb@thomasmeiner及社区的思路分享
  • 模型合并、堆叠、集成与平均
  • 大量实验(主要用于学习目的)
  • 🔥 以"Akka från Kebnekajse"命名的Kaggle炼金术士秘密协会
  • 🦄 独角兽的花粉

本次无效的方法?

  • PCA / ICA降维
  • 独立使用的Boosting模型
  • TabPFN模型
  • 姓氏特征工程
  • 原始数据集直接使用
同比赛其他方案