631. UM - Game-Playing Strength of MCTS Variants | um-game-playing-strength-of-mcts-variants
首先,我想感谢本次竞赛的主办方马斯特里赫特大学 (Maastricht University) 和 Kaggle 举办了这次竞赛。
我也要感谢 Kaggle 社区提供的讨论和慷慨的想法分享。特别要感谢 yunsuxiaozi 提供的 MCTS 入门 notebook,我从中采纳了从 'LudRules' 列计算 ARI、McAlpine EFLAW 和 CLRI 得分的想法。谢谢!
和许多人一样,我原本预期会有很大的变动,真的没想到我的解决方案能跻身前列。因此,今天早上发现公共排行榜和私有排行榜的前三名位置没有变化时,我感到很惊讶。
更新:
第二名解决方案 - 提交 notebook https://www.kaggle.com/code/fredrikupmark/um-gpsomctsv-2nd-place-solution-submission 模型数据集 (包含复现模型二进制的说明) https://www.kaggle.com/datasets/fredrikupmark/um-gpsomctsv-2nd-place-solution总之,我认为我的解决方案可以形容为简单直白:
性能的重大突破显然来自于数据增强。我使用了与 第三名解决方案 完全相同的数据增强。考虑到训练数据,我认为这是一个非常自然的方法,我相信许多其他人也独立地使用了完全相同的增强方法。
与其他人报告的情况相反(例如 第三名解决方案),我在尝试将折外 (OOF) 预测作为第二次训练运行的特征时完全没有运气。(不过,我并没有在这方面花太多时间,也许我只是打错了什么搞砸了!)因此,我的模型 simply 使用了常规的单次训练/预测结构。
我的最终整体模型由 7 个模型的加权集成组成,其中 4 个是 boosting 模型,3 个是神经网络 (NN) 模型。最后,整体提交使用了 6 组结构相同的模型集的等权重混合,唯一的区别是训练时使用的种子。
除了来自 'LudRules' 列的文本得分(再次感谢 yunsuxiaozi)之外,我没有复制任何公开 notebook 的想法。尽管如此,我肯定从有趣的讨论和 Kaggle 整体社区中受益良多!
7 个模型的集成
所有模型使用相同的特征,除了 boosting 模型 2 和 4 添加了全套虚拟规则组集标识符特征。
每个模型的预测都被限制在目标范围 (-1 到 1)。然后使用普通最小二乘法 (OLS) 回归将模型组合成 CV 加权集成。在此阶段排除了来自 NN 模型的增强预测,因为它们似乎没有提供明显的好处。此外,出乎意料的是,CV 估计对第 2 个更大的 MLP NN(模型 6)和 AE NN(模型 7)的预测给出了明显的负权重。通常我怀疑在预期为正的地方使用负模型权重。我认为负估计主要表明模型结构/规范有改进潜力,而不是实际包含在模型集成中的东西。然而,我未能在竞赛时间限制内改进我的方法,并且由于负权重似乎对 CV 和公共排行榜得分都有益,我决定采用包括这两个负权重 NN 模型的完整模型结构。此外,一个假设是负权重——对于可能过拟合的模型——可以 somewhat 提高泛化性能,即在训练数据之外,这对我来说似乎并非完全不合理。
然后将完整集成预测限制在目标范围内,并通过 CV OLS 回归对限制后的集成预测进行缩放。我有点担心这可能会过拟合数据,但我还是决定保留缩放,因为它提高了 CV 和公共排行榜得分。
使用上述结构,我训练了 6 组具有不同种子的相同结构模型集。种子是半随机化的,手动挑选了一些 CV 得分太低或太高的种子被丢弃。这是因为更适中的 CV 得分似乎能更好地泛化到公共排行榜。
最后在绝对的最后一步,来自所有 6 组的组合预测再次被限制在目标范围内。
通过上一节描述的方法,我生成了一个主要基于 CV 的提交。
此外,我决定基于我认为更像是完全排行榜过拟合的方法再做另一个提交。可能的“过拟合”方法与第一个方法有两点不同:
对我来说,这似乎是一个经典的过拟合甚至是绝望的举动,几乎肯定不是私有排行榜得分的获胜选择。
然而,我的基于 CV 与公共排行榜过拟合策略的得分结果如下:
| 私有分数 | 公共分数 | |
|---|---|---|
| 主要基于 CV 的提交 | 0.42324 | 0.41779 |
| 完全公共排行榜过拟合提交 | 0.41996 | 0.41429 |
所以,幸运的是,我错了。在这个特定竞赛中,排行榜过拟合方法的可疑选择事实证明是有回报的。至少部分原因可以解释为某些游戏规则集同时出现在公共和私有测试集中,请参阅组织者发布的这篇 竞赛结束帖子。我没想到游戏会同时出现在公共和私有测试集中,但很明显这奖励了与公共排行榜一致的提交。无论如何,我对结果感到谦卑,并诚实地认为我的第二名提交更多的是运气而不是技能。
再次感谢