648. March Machine Learning Mania 2025 | march-machine-learning-mania-2025
业务背景: https://www.kaggle.com/competitions/march-machine-learning-mania-2025/overview
数据背景: https://www.kaggle.com/competitions/march-machine-learning-mania-2025/data
基于 Xgboost 叶子节点的逻辑回归(胜或负),针对分差使用柯西损失函数(Cauchy loss function)。特征包括原始 Vilnius NCAA 代码中的所有特征,但我添加了基于前一赛季对阵、客场胜利、最近 14 天胜率的拉普拉斯平滑特征(Laplace Smoothed features),以及独特的堆叠袋外预测(uniquely stacked out of fold predictions)。对于验证策略,我仅基于留出去年(2024 年)数据的布里尔分数(Brier score)使用个人直觉。
我没有使用列出的 CV 代码,因为存在基于时间的泄露。我没有使用原始代码中的样条函数(spline),因为存在目标泄露。我仅将留一赛季法(leave one season out)用于模型平均,而不是交叉验证。我有一些具有“更好”泄露局部 CV 的模型,但我没有提交。未使用赌博手段。未使用手动操纵。我的另一个提交是 Raddar 之前在 Github 上发布的 R 语言解决方案,该方案在过去曾多次获胜。我没有使用任何外部数据,仅利用了 Kaggle 上发布的用于本次竞赛的官方数据。