37th place solution

第 37 名解决方案

作者： Ray
发布时间： 2024-12-05
竞赛排名： 37
团队成员： Ray, XUYUTONG, Ren jiming, YAN Zhenning, Jiahui Wang

只是更多的模型！

首先，我想感谢组织者和 Kaggle 举办这次比赛；这是一个非常有趣的竞赛。在尝试了大量的本地实验后，我发现交叉验证（CV）并不是 very 可靠，所以我选择相信排行榜（LB）——但也不是完全相信，因为我看到讨论论坛上很多人说 LB 不可靠。让我非常惊讶的是，公共分数和私人分数之间的差异非常小；这是我几乎从未见过的情况。

以下是我们团队的解决方案。关键在于集成更多的模型；其他地方没有使用任何令人印象深刻或特殊的技术：
解决方案架构图

其次，我想分享提交解决方案时遇到的最大问题：Kaggle 错误！经过不断的故障排除，我排除了“内存不足”和"GPU 显存溢出”，发现根本原因是磁盘空间不足！！！

磁盘空间不足的原因是，在模型 3 (DeepTables NN) 中，我将加载模型的代码放在了"predict"函数内部。这导致在在线测试阶段模型被重复加载（批次大小为 100，意味着模型被加载了 600 次）。事实上，在调试过程中，大约重复 30 次后，就已经超过了最大磁盘容量（最大：57.6GB）。之后，我将加载模型的代码移到了"predict"函数之上，问题得以解决。希望我的经验能帮助到大家。

最后，我想感谢我的朋友 @yunsuxiaozi、@andreasbis 和 @yekenot 提供的公开解决方案。我非常钦佩他们开源代码的精神。因此，我也公开了我在本次竞赛期间创建的数据、模型和代码，希望能对大家有所帮助。需要特别注意的是，Alice 在公共排行榜上排名很高，但不幸的是，他似乎没有选择这套解决方案，导致他错失了一枚奖牌。希望他能很快获得他的第一枚奖牌。

代码：https://www.kaggle.com/code/faykudbq/mcts-deeptables-nn-af7adb

第 37 名解决方案

同比赛其他方案