7th place solution - HC + Ridge | 优胜方案

第 7 名解决方案 - HC + Ridge

作者：Haruki Kakinuma

发布时间：2025 年 7 月 1 日

比赛排名：第 7 名

感谢过去的一个月！
很荣幸能在这个我全心投入的比赛中取得这个排名。
在每场比赛中，我都致力于探索和深入实验新技术。
在这场比赛中，我挑战了自己从未尝试过的多层集成——到目前为止，我最多只做过多个模型的简单加权平均。
下面，我将分享我的 1. 模型，2. 反思，3. 致谢。

1. 模型

在前 20 天左右，我专注于实现集成的基础模型。
为了增加多样性，我改变了以下 3 个方面，调整了其余超参数以获得最佳性能，并只保留了对提高整体预测有贡献的模型。

结果，保留了 7 个 XGB 模型 (→RIDGE1) 和 6 个 LGBM 模型 (→RIDGE2)。
我还制作了 NN 模型（参考此处，更改了一些点如折叠数）。

我使用了 2 个公开代码（代码一，代码二）来提高分数。
我尽可能修剪了使用与我不同方法的集成候选者。

在这一层，我最终同时使用了 HC 和 RIDGE。
我也实验了像 NN 和 XGB 这样的堆叠模型，但它们根本没有帮助提高分数，所以我最终放弃了它们。
虽然最初我对在这一层使用 HC 犹豫不决，但最终提交的交叉验证分数明显更好，所以我决定使用它。

HC(L3)
OOF : 0.38396, 私有 LB : 0.38460
RIDGE(L3)
CV : 0.38368, 私有 LB : 0.38449
→ 最终提交 (L4)
CV : 0.38412, 私有 LB : 0.38486

反思上一场比赛并注意了讨论中的警告，这次我能够完全信任我的 CV。
老实说，由于我还是 Kaggle 的新手，过去常常因为公共 LB 而过度兴奋或沮丧，但在最后一周，我保持了心态平稳 :)

首先，我完全忘记了岭回归有一个超参数。
它碰巧在初始设置下效果很好，所以我就这样留着，陷入了构建堆叠模型的过程中。
直到刚才看了其他人的解决方案我才意识到这一点…

另外，我一直将所有提交文件命名为相同名称 (ensemble_submission.csv)，所以我失去了跟踪哪个提交是哪个的记录。
结果，我最终在最终提交时冒了一点险。
奇迹般地，我提交了 CV 分数最好的那个，但我绝对需要反思这一点。

多亏了从大家那里学到的一切，我才能走到这一步。
虽然我不能在这里提到每一个人，但我想向以下个人表达感谢。
@siukeitin, @tilii7, @richardjana, @masayakawamata
@cdeotte, @robschieber, @paperxd, @mahoganybuttstrings
@act18l, @gauravduttakiit, @ravi20076, @yunsuxiaozi, @gowthamdd
谢谢！！