返回列表

7th Place Solution

480. March Machine Learning Mania 2022 - Womens | womens-march-mania-2022

开始: 2022-02-19 结束: 2022-04-04 赛事预测 数据算法赛
第7名解决方案

第7名解决方案

作者:Travis Buhrow
发布时间:2022-04-12

与其他选手类似,激进的预测策略是我在排行榜上名列前茅的原因。这种策略在男子比赛中适得其反(多亏了肯塔基大学和爱荷华大学,我排在了第899名),但在这里却对我有利。归根结底,要想在这些“疯狂三月”比赛中名列前茅,你需要为你潜在的结果范围引入更多的波动性——你可能有一个能稳定排在前25-30%左右的核心模型,但我认为你找不到什么神奇的数学公式能让你稳定地排在前10%(如果你有的话,咱们聊聊!:D)

我使用了一种ELO排名方法,与538的排名非常相似。我在2019年的比赛中分享了一个用于排名参数调整的笔记本——我每年都会使用它的一个版本来思考如何为我在比赛中最终使用的模型设置参数。https://www.kaggle.com/code/travisbuhrow/elo-scenarios-simulator-womens/notebook

在此基础上,我进行了以下“激进”的手动调整:

  • 将康涅狄格大学的评分提高了175分——这使它从我评分第4的球队变成了第1,但其实际目的是将它们移入我排名的顶级“梯队”,使它们被认为与斯坦福大学和南卡罗来纳大学基本持平。
  • 给予1号、2号和3号种子在第一轮99.9999999%的获胜概率。路易斯安那州立大学(LSU)差点就打破了这个设定!事后看来,我很庆幸没有对第二轮比赛也这样做,否则我最终会给2号种子自动获胜的判定……而爱荷华大学/贝勒大学会毁了这些提交。
  • 对于第一轮内布拉斯加大学对冈萨加大学的比赛,我的模型认为这是一场五五开的比赛,于是我提交了一份假设内布拉斯加获胜的预测,另一份假设冈萨加获胜。

感谢管理员再次举办这些“疯狂三月”比赛——我最早接触数据科学和Python就是在2018年的比赛中。对于对体育感兴趣的数据科学新手来说,这是一个极好的入门比赛,因为结果的波动性意味着技术数据科学/编码技能的重要性稍低,而领域知识和提交策略的重要性稍高。这些比赛让我迷上了学习更多关于数据科学的知识,我将永远感激这一点!

同比赛其他方案