17th Place Solution| AutoML + Unicorn's pollen + Lack of sleep

595. Playground Series - Season 4, Episode 1 | playground-series-s4e1

开始: 2024-01-02 结束: 2024-01-31 用户画像与运营数据算法赛

第17名解决方案 | AutoML + 独角兽的花粉 + 睡眠不足

第17名解决方案 | AutoML + 独角兽的花粉 + 睡眠不足

团队：The Churn Busters

作者：Samvel Kocharyan（Kaggle Master）、Vilius Pėstininkas、Arslan Gabdulkhakov

发布时间：2024年2月1日

竞赛排名：第17名

得票数：11票

背景

S4E1 Playground 赛道"银行客户流失数据集二分类问题"。

业务背景：竞赛概述页面
数据背景：数据下载页面

方法概述

我们的最终提交方案结合了AutoGluon三层堆叠模型（我们称之为"科学怪人II"）以及我们之前模型和一些公开笔记书的平均值集合。

最终提交方案使用了从OpenFE获得的精简特征集。通过BorutaSHAP和RFECV进行了特征筛选，最终模型使用了103个特征。

提交详情

我们选择了两个提交方案：

WeightedEnsemble_L3：公开榜0.89372 | 私有榜0.89637 | CV 0.898947
获胜方案（私有榜0.90106 | 公开榜0.89687）：在最后几小时通过平均0.89673和0.89565两个模型得到

科学怪人II架构

集成模型架构图

哪些方法有效？

特征生成（470个）和特征筛选（103个）
数据为中心的方法（CleanLab）
数据重标注
AutoGluon 1.0.1（感谢@innixma）
BorutaSHAP框架和Scikit-learn的RFECV
@paddykb、@thomasmeiner及社区的思路分享
模型合并、堆叠、集成与平均
大量实验（主要用于学习目的）
🔥 以"Akka från Kebnekajse"命名的Kaggle炼金术士秘密协会
🦄 独角兽的花粉

本次无效的方法？

PCA / ICA降维
独立使用的Boosting模型
TabPFN模型
姓氏特征工程
原始数据集直接使用

参考资料

竞赛讨论帖 #470363 https://www.kaggle.com/competitions/playground-series-s4e1/discussion/470363 竞赛讨论帖 #471164 https://www.kaggle.com/competitions/playground-series-s4e1/discussion/471164 竞赛讨论帖 #469859 https://www.kaggle.com/competitions/playground-series-s4e1/discussion/469859 高级特征工程与集成方案 https://www.kaggle.com/code/arunklenin/ps4e1-advanced-feature-engineering-ensemble EDA、特征工程与建模 https://www.kaggle.com/code/thomasmeiner/ps4e1-eda-feature-engineering-modelling

同比赛其他方案

2nd place solution

3rd Place Solution: CatBoost Encoding Galore