返回列表

4th Place Solution for the March Machine Learning Mania 2025 Competition

648. March Machine Learning Mania 2025 | march-machine-learning-mania-2025

开始: 2025-02-10 结束: 2025-04-08 赛事预测 数据算法赛
2025 年 March Machine Learning Mania 竞赛第 4 名解决方案

2025 年 March Machine Learning Mania 竞赛第 4 名解决方案

作者: Mike Kim (Grandmaster)
发布日期: 2025-04-09
竞赛排名: 第 4 名

背景

业务背景: https://www.kaggle.com/competitions/march-machine-learning-mania-2025/overview
数据背景: https://www.kaggle.com/competitions/march-machine-learning-mania-2025/data

方法概述

基于 Xgboost 叶子节点的逻辑回归(胜或负),针对分差使用柯西损失函数(Cauchy loss function)。特征包括原始 Vilnius NCAA 代码中的所有特征,但我添加了基于前一赛季对阵、客场胜利、最近 14 天胜率的拉普拉斯平滑特征(Laplace Smoothed features),以及独特的堆叠袋外预测(uniquely stacked out of fold predictions)。对于验证策略,我仅基于留出去年(2024 年)数据的布里尔分数(Brier score)使用个人直觉。

提交详情

我没有使用列出的 CV 代码,因为存在基于时间的泄露。我没有使用原始代码中的样条函数(spline),因为存在目标泄露。我仅将留一赛季法(leave one season out)用于模型平均,而不是交叉验证。我有一些具有“更好”泄露局部 CV 的模型,但我没有提交。未使用赌博手段。未使用手动操纵。我的另一个提交是 Raddar 之前在 Github 上发布的 R 语言解决方案,该方案在过去曾多次获胜。我没有使用任何外部数据,仅利用了 Kaggle 上发布的用于本次竞赛的官方数据。

来源

同比赛其他方案