15th Place Solution - 第 15 名解决方案

第 15 名解决方案

作者：tamryow (MASTER)

发布时间：2025-03-06

竞赛排名：第 15 名

首先，我要感谢 Kaggle 社区分享伟大的想法和参与讨论。我也要感谢主办方组织了这次有趣的任务竞赛。

概述

我使用了公开笔记中的转换方法（Kaplan, Nelson 等）和 Rank Gauss 转换。
因为使用 Kaplan 等方法会减少目标变量的唯一值数量，我担心信息量会减少。
因此我使用了不减少唯一值的 Rank Gauss 转换，随后 LB（Leaderboard）略有提升。

[简单 XGB 结果]

我实施了两次 30 个模型的堆叠。
当进行第 n 次堆叠时，我使用第 n-1 次的 OOF 作为特征。

30 个模型 = GBDTs(XGB, CAT, LGB) : 3 * 各种目标和设置 : 10

[集成结果（详情见下文）]

我使用 Rank Gauss 转换后的目标变量实施了如下集成：

集成仅用 efs=1 数据训练的模型和用所有数据训练的模型
如果上述预测低于相对于全数据模型预测的阈值，则用全数据训练模型的预测进行替换。
y_pred.loc[oof['pred']<threshold,'prediction'] = oof['pred']

我认为竞赛分数由两部分计算得出。一部分 (a) 是比较每个 efs=1 的预测，另一部分 (b) 是比较 efs=0 预测对抗 efs=1 预测。
通过仅训练 efs=1 数据，'a' 部分分数会非常高。
'a' 部分分数可以通过集成 1 来改进。
'b' 部分分数可以通过集成 2 来改进。

[第 2 次堆叠结果]

・目标编码 (Target encoding)
・使用 Umap/t-SNE 作为特征

查看原始解决方案页面 Kaggle Competition Writeup