657. Playground Series - Season 5, Episode 6 | playground-series-s5e6
感谢过去的一个月!
很荣幸能在这个我全心投入的比赛中取得这个排名。
在每场比赛中,我都致力于探索和深入实验新技术。
在这场比赛中,我挑战了自己从未尝试过的多层集成——到目前为止,我最多只做过多个模型的简单加权平均。
下面,我将分享我的 1. 模型,2. 反思,3. 致谢。
在前 20 天左右,我专注于实现集成的基础模型。
为了增加多样性,我改变了以下 3 个方面,调整了其余超参数以获得最佳性能,并只保留了对提高整体预测有贡献的模型。
结果,保留了 7 个 XGB 模型 (→RIDGE1) 和 6 个 LGBM 模型 (→RIDGE2)。
我还制作了 NN 模型(参考此处,更改了一些点如折叠数)。
我使用了 2 个公开代码(代码一,代码二)来提高分数。
我尽可能修剪了使用与我不同方法的集成候选者。
在这一层,我最终同时使用了 HC 和 RIDGE。
我也实验了像 NN 和 XGB 这样的堆叠模型,但它们根本没有帮助提高分数,所以我最终放弃了它们。
虽然最初我对在这一层使用 HC 犹豫不决,但最终提交的交叉验证分数明显更好,所以我决定使用它。
HC(L3)
OOF : 0.38396, 私有 LB : 0.38460
RIDGE(L3)
CV : 0.38368, 私有 LB : 0.38449
→ 最终提交 (L4)
CV : 0.38412, 私有 LB : 0.38486
反思上一场比赛并注意了讨论中的警告,这次我能够完全信任我的 CV。
老实说,由于我还是 Kaggle 的新手,过去常常因为公共 LB 而过度兴奋或沮丧,但在最后一周,我保持了心态平稳 :)
首先,我完全忘记了岭回归有一个超参数。
它碰巧在初始设置下效果很好,所以我就这样留着,陷入了构建堆叠模型的过程中。
直到刚才看了其他人的解决方案我才意识到这一点…
另外,我一直将所有提交文件命名为相同名称 (ensemble_submission.csv),所以我失去了跟踪哪个提交是哪个的记录。
结果,我最终在最终提交时冒了一点险。
奇迹般地,我提交了 CV 分数最好的那个,但我绝对需要反思这一点。
多亏了从大家那里学到的一切,我才能走到这一步。
虽然我不能在这里提到每一个人,但我想向以下个人表达感谢。
@siukeitin,
@tilii7,
@richardjana,
@masayakawamata
@cdeotte,
@robschieber,
@paperxd,
@mahoganybuttstrings
@act18l,
@gauravduttakiit,
@ravi20076,
@yunsuxiaozi,
@gowthamdd
谢谢!!