返回列表

Second Place Solution: The raddar Prophecy Strikes Again...

648. March Machine Learning Mania 2025 | march-machine-learning-mania-2025

开始: 2025-02-10 结束: 2025-04-08 赛事预测 数据算法赛
第二名解决方案:raddar 预言再次应验

第二名解决方案:raddar 预言再次应验...

作者: baellouf (EXPERT)
发布时间: 2025 年 4 月 9 日
raddar prophecy

raddar 预言再次应验!

背景

我大约在两年前发现了 Kaggle,最终用 Kaggle 瘾取代了我的国际象棋瘾(从 Elo 冲分变成了 Kaggle 冲分)。社区非常棒;在这段时间里,我通过各种比赛动手实践,学习和吸收的信息比之前整个人生都要多。我从 8 岁就开始打篮球,甚至打过几年半职业比赛。我是一个巨大的篮球迷,几乎从不错过比赛(主要是本地联赛 + 欧洲联赛),但这是我第一年密切关注 NCAA。赛制显著不同(例如 2 个半场而不是 4 节),年龄、资格和连续性(现在还有 NIL!)因素都塑造了我在整个比赛中的决策。所以这次比赛对我来说是结合我的主要兴趣的完美匹配:篮球和机器学习(ML)!

我在准备过程中使用的 Kaggle 以外的资源:

  • Basketball Analytics: Objective and Efficient Strategies for Understanding How Teams Win – 作者 Stephen M. Shea 和 Christopher E. Baker
  • Basketball on Paper: Rules and Tools for Performance Analysis – 作者 Dean Oliver(期待阅读新版本!)
  • Mathletics: How Gamblers, Managers, and Sports Enthusiasts Use Mathematics in Baseball, Basketball, and Football – 作者 Wayne L. Winston
  • 来自 MIT Sloan 体育分析会议 YouTube 频道的一系列视频

唉,尽管做了大量的准备工作(更多的数据收集、计划、新特征、观看大部分比赛以及跟进专家分析),生活还是发生了意外。我在打篮球时折断了手指(讽刺吧!损失了一个月的工作),结果被比赛截止日期打了个措手不及(不像往常那样是凌晨 1 点 :D)。所以,由于受伤恢复时间紧迫且被截止日期弄得措手不及,我无法完全实施我的主要方法,也无法在两个提交中有效地使用它。相反,我不得不使用其中一个提交来进行一种“赌博”方法(当然,这是受到我的研究和观看比赛的严重影响),讽刺的是,这种方法最终表现得更好!

为什么选择佛罗里达?

这绝对是我能做出的最激进的呼叫,押注于一支不一定是赛前共识热门的球队,但有几个因素让他们看起来像是一个可能被低估、具有高上限的选择。

其中很大一部分是他们 deeply commitment to analytics(对分析学的深厚承诺)。在 Golden 教练的带领下,这 realmente felt like the foundation of their program(真的感觉像是他们项目的基础)。他们有一位 dedicated analytics director/coach(专门的分析总监/教练),Jonathan Safir(我是他的超级粉丝!),这影响了几乎所有事情,从球员评估和招聘到比赛中的策略。你也能看到有形的结果。Golden 在那里期间,他们的胜场总数稳步上升。

此外,这种数据优先的方法不仅仅是理论上的;你可以在他们在场上的决策中看到。让我印象深刻的例子:尽管 Will Richard 在上半场得了三次犯规,但在对阵 Texas Tech 的比赛中让他留在场上。在对阵 Oklahoma 的半场结束时故意犯规,以 potentially gain an extra possession( potentially 获得额外的球权),这表明他们愿意 squeeze probabilities for potential -even if minor- gains(挤压概率以获取潜在的——即使是微小的——收益)(这肯定是 Safir 的手法,他和 KenPom 一起研究了这一点!https://kenpom.com/blog/the-guide-to-fouling-when-leading-or-tied/)。

他们的身体准备似乎也很先进。在 SEC 锦标赛冠军赛期间(最艰难的分区之一,如果不是最艰难的话),他们在三天内赢了三场比赛,他们在比赛后期看起来明显很强。显然 throughout(整个过程中)都有 smart workload management(智能的工作量管理)。他们在正确的时间达到了峰值。

然后是阵容的构建方式。他们不依赖堆积顶级高中 recruit(新秀)。事实上,那一年的球队对佛罗里达来说是独特的,因为它没有任何来自高中排名的前 100 名球员!相反,他们大量使用 transfer portal(转会门户)和他们的分析来识别可能被其他人忽视的球员,专注于基本得分统计之外的特定指标,比如防守贡献。关键球员如 Walter Clayton Jr. 和 Alijah Martin 最初实际上是零星级新秀,后来从其他项目引进。Will Richard 是另一个例子,从 Belmont 转会而来。他们似乎专注于寻找特定的契合点和价值,据报道没有参与主要的 NIL 竞价战。

这种非常规的阵容构建很重要,因为它表明佛罗里达可能被传统评估方法低估了。但重要的是,虽然他们缺乏顶级排名的新生,但他们在另一个关键领域表现出色:阵容连续性(这是我另一个解决方案中引入的新特征之一,结果被赌博方案击败了哈哈)。在门户时代有一个明显的趋势,即全国冠军 heavily rely on returning players(严重依赖回归球员)。2022 年的堪萨斯队 81% 的出场时间来自回归者;UConn 在其背靠背冠军中分别为 53% 和 61%;佛罗里达完美契合了这一模式,70% 的出场时间由回归球员贡献。这显著高于四强球队中 Duke 的 22%,与 Auburn 的 69% 相当(Houston 最高,为 82%,但在 bracket 的另一侧)。这个连续性因素感觉至关重要;让关键球员回归可以建立经验和凝聚力。

因此,结合那个经验丰富的核心与他们复杂的准备工作和数据驱动的教练,描绘了一支 uniquely equipped for a deep tournament run( uniquely 装备好进行深度锦标赛运行)的球队画面。当然,这仍然是一场赌博,但感觉受到这些特定因素的支持。老实说,考虑到经验和连续性是我整个逻辑的关键。随着 Duke 和 Houston 在另一侧,我 anticipate a potential final against a very talented but less experienced Duke squad(预料到可能会与一支非常有天赋但经验不足的 Duke 队进行决赛)(那是我的 bracket _pick_ 从另一侧 emerge... RIP),我觉得佛罗里达的 veteran presence(老将存在)给了他们在那场 hypothetical championship matchup(假设的冠军对决)中的优势(事后看来,我应该出于同样的原因对 Houston vs. Duke 做出同样的呼叫!)。

最后感想

回首往事,记得所有那些我熬夜 watching until 6 am(看到凌晨 6 点)的比赛,这次佛罗里达的选择真的感觉像是一场 wild ride(狂野之旅)。这在纸面上是一次疯狂的赌博(虽然 SOME experts did agree with me, like: 32 Analytics https://x.com/32_Analytics/status/1902730569437315463),看着它 unfold 是另一回事。他们 consistently pulled themselves out of seemingly impossible situations(一致地把自己从看似不可能的情况中拉出来)。我发誓 ESPN 的 win probability graphs(胜率图表)在这些比赛期间与我的心率 spike for spike(峰值对峰值)匹配!对阵 Auburn 的 comebacks(逆转)(别忘了早期对阵 Uconn 的心跳停止...),Texas Tech,以及最后在 championship game(冠军赛)对阵 Houston... 这些都是 almost any other team would have cracked(几乎任何其他球队都会崩溃)的时刻(看看 Duke 是如何折叠了两次,最后在 Final Four 游戏中)。它真的开始感觉好像他们注定要赢得一切,鉴于他们 time and time again(一次又一次)表现出的 resilience(韧性)。

Houston Win Probability Uconn Win Probability Texas Tech Win Probability Auburn Win Probability Meme

老实说,我当然有点失望,这次赌博 completely overshadowed(完全掩盖了)我为另一个提交投入的数月工作。更具讽刺意味的是,它也表现得很好,在最终 leaderboard 上 finished near the bottom of the gold medal zone( finishing 靠近金牌区的底部)!所以,虽然赌博 obviously leapfrogged and completely destroyed it(显然跳过并完全摧毁了它),但我觉得 underlying preparation(底层准备工作)帮助我 comfortably "waste" a submission on the Gators(舒适地在 Gators 身上“浪费”了一个提交)。第二个“失败”的提交明年肯定会带着 vengeance(复仇)回归 :D

对此,考虑到比赛格式,虽然两个提交使得这次赌博成为可能,但我 actually find myself agreeing with the sentiment that maybe a single submission format would be better for future iterations(实际上发现自己同意这样一种观点,即单次提交格式可能更适合未来的迭代)。它 forces a different kind of discipline(迫使一种不同的纪律)。我也真的希望比赛考虑采用 very creative and cool logistic brier(非常有创意且酷的 logistic brier),正如 Ryan, raddar 和其他人建议的那样。

最后且最重要的是,我 winning gambling submission(获胜的赌博提交)的基础 heavily relied on the excellent starter notebook provided by goto(严重依赖 goto 提供的优秀入门 Notebook),将其作为 Florida overrides(佛罗里达覆盖)的基础(我肯定不是这里唯一的人哈哈)。所以,非常感谢该 Notebook 的作者和底层的 goto_conversion 包(去给他们的 Notebook 加星和点赞!!)(https://github.com/gotoConversion/goto_conversion?tab=readme-ov-file)。我 extensively followed their work(广泛关注了他们的工作)以及他们多年来对这次比赛的贡献,包括分享的 great presentation(精彩演示)here,对我个人和社区来说都是 invaluable( invaluable)资源。

Outro
同比赛其他方案