返回列表

First Place Solution

648. March Machine Learning Mania 2025 | march-machine-learning-mania-2025

开始: 2025-02-10 结束: 2025-04-08 赛事预测 数据算法赛
第一名解决方案 - March Machine Learning Mania 2025

第一名解决方案

作者: mohammad odeh (modeh7)
发布时间: 2025 年 4 月 11 日
竞赛: March Machine Learning Mania 2025

感谢 Kaggle 再次举办本次竞赛。

背景

今年我在这次竞赛中的旅程并不顺利。在二月中旬(锦标赛开始前几周),我决定开始缓慢收集不同的数据来构建我的模型,主要包括:Kenpom、MassyOrdinal 和 538。我已经准备好了 Kenpom 数据并测试了截至 2024 年(去年)的数据,但我忽略了 538 在 2025 年不可用,而 MassyOrdinal 可用较晚这一事实。这时我不得不转变方法,从 @raddar 的 notebook 中汲取灵感。

细节

该 notebook 提供了真正精心设计的特征,这些特征包括提供的数据、使用平均统计数据和团队质量 derived 的特征。

我基于此建立了我的方法。

虽然我尝试调整不同的算法(CatBoost, LightGBM),但 XGBoost 表现最好,所以我进行了特征选择(29 个特征),而不是(raddar 选择的 25 个特征):

features = [
    "men_women",    
    "T1_seed",
    "T2_seed",
    "Seed_diff",
    "T1_avg_Score",
    "T1_avg_FGA",
    "T1_avg_OR",
    "T1_avg_DR",
    "T1_avg_Blk",
    "T1_avg_PF",
    "T1_avg_opponent_FGA",
    "T1_avg_opponent_Blk",
    "T1_avg_opponent_PF",
    "T1_avg_PointDiff",
    "T2_avg_Score",
    "T2_avg_FGA",
    "T2_avg_OR",
    "T2_avg_DR",
    "T2_avg_Blk",
    "T2_avg_PF",
    "T2_avg_opponent_FGA",
    "T2_avg_opponent_Blk",
    "T2_avg_opponent_PF",
    "T2_avg_PointDiff",
    "T1_elo",
    "T2_elo",    
    "elo_diff",
    "T1_quality",
    "T2_quality",
]

我进一步调整了 XGBoost 参数:

param = {}
param["objective"] = "reg:squarederror"
param["booster"] = "gbtree"
param["eta"] = 0.0093 
param["subsample"] = 0.6
param["colsample_bynode"] = 0.8
param["num_parallel_tree"] = 2 
param["min_child_weight"] = 4
param["max_depth"] = 4
param["tree_method"] = "hist"
param['grow_policy'] = 'lossguide'
param["max_bin"] = 38
num_rounds = 704

性能更好,并实现了更低的 Brier 分数。

然后是最后部分,由于我今年的经历波折,我决定提升模型预测,所以我做了:

  • 将低于 85% 的预测增加 10%(男子和女子预测)
  • 手动覆盖(增加 30-70%)男子锦标赛中的几场比赛,模型似乎不太自信,尽管对于早期回合,较高种子获胜几率更高 + 专家确认:
比赛 ID 预测值 新预测值
Baylor v Mississippi State 2025_1124_1280 0.58185013 0.98185013
BYU vs VCU 2025_1140_1433 0.683304479 0.980304479
ST Mary CA vs Vanderbilt 2025_1388_1435 0.714379186 0.954379186
Mississippi vs North Carolina 2025_1279_1314 0.664069204 0.964069204
Texas A&M vs Yale 2025_1401_1463 0.853761116 0.953761116
UCLA vs Utah St 2025_1417_1429 0.673425592 0.973425592

最初,特征帮助实现了更低的 Brier 分数。进一步调整 XGBoost 提高了分数,最后,手动调整纠正了早期回合中的一些错误预测,从而实现了整体更好的 Brier 分数。

同比赛其他方案