4th Place Solution for the March Machine Learning Mania 2025 Competition

2025 年 March Machine Learning Mania 竞赛第 4 名解决方案

作者: Mike Kim (Grandmaster)
发布日期: 2025-04-09
竞赛排名: 第 4 名

背景

业务背景: https://www.kaggle.com/competitions/march-machine-learning-mania-2025/overview
数据背景: https://www.kaggle.com/competitions/march-machine-learning-mania-2025/data

方法概述

基于 Xgboost 叶子节点的逻辑回归（胜或负），针对分差使用柯西损失函数（Cauchy loss function）。特征包括原始 Vilnius NCAA 代码中的所有特征，但我添加了基于前一赛季对阵、客场胜利、最近 14 天胜率的拉普拉斯平滑特征（Laplace Smoothed features），以及独特的堆叠袋外预测（uniquely stacked out of fold predictions）。对于验证策略，我仅基于留出去年（2024 年）数据的布里尔分数（Brier score）使用个人直觉。

提交详情

我没有使用列出的 CV 代码，因为存在基于时间的泄露。我没有使用原始代码中的样条函数（spline），因为存在目标泄露。我仅将留一赛季法（leave one season out）用于模型平均，而不是交叉验证。我有一些具有“更好”泄露局部 CV 的模型，但我没有提交。未使用赌博手段。未使用手动操纵。我的另一个提交是 Raddar 之前在 Github 上发布的 R 语言解决方案，该方案在过去曾多次获胜。我没有使用任何外部数据，仅利用了 Kaggle 上发布的用于本次竞赛的官方数据。

来源

我的代码 https://www.kaggle.com/code/mikeskim/gold-medal-solution-mike-kim

此代码应能完全复现我的提交文件，除非是包含非种子队伍的比赛。这些比赛均设置为 0.5。在 Kaggle Notebooks 中生成包含所有可能匹配（包括非种子队伍）的文件会消耗过多的 RAM 和时间。

基于：Vilnius NCAA https://www.kaggle.com/code/raddar/vilnius-ncaa 基于：NCAA Women 2018 https://github.com/fakyras/ncaa_women_2018

4th Place Solution for the March Machine Learning Mania 2025 Competition

2025 年 March Machine Learning Mania 竞赛第 4 名解决方案

背景

方法概述

提交详情

来源

同比赛其他方案