返回列表

5th Place Approach

480. March Machine Learning Mania 2022 - Womens | womens-march-mania-2022

开始: 2022-02-19 结束: 2022-04-04 赛事预测 数据算法赛
第5名方案分享

第5名方案分享

作者:Taylor Merry
比赛:Women's March Mania 2022

感谢 Kaggle 再次举办这场比赛。这是让三月成为我最喜欢时节的一部分,我很感激后台为此所做的所有工作。

这里有很多关于我提交内容的详细信息,文末附有代码链接和太长不看版(TLDR)。如果有任何问题,请告诉我。

关于你/你的团队

我叫 Taylor Merry,是一名居住在华盛顿州西雅图的数据科学家。

你的学术/职业背景是什么?
华盛顿大学统计学学士学位。拥有2年行业数据科学家经验。

你是否有任何 prior 经验帮助你在这场比赛中取得了成功?
是的,我参加过许多往届的 Kaggle 三月疯狂比赛。我也是大学篮球的忠实粉丝,并关注体育分析。

是什么让你决定参加这场比赛?
我很享受过去的比赛经历。

你在比赛中花了多少时间?
今年,我有很多代码是从以前的参赛作品中保留下来的,所以只花了大约20个小时左右。

摘要

你使用的训练方法
基于公开可用评级系统的正态分布(参数化模型)。

你使用的工具
我使用了公开可用的评级系统和正态分布,将分差转换为获胜概率。

训练你的模型需要多长时间
无需训练,Notebook 运行速度非常快。

特征选择 / 工程

最重要的特征是什么?
公开可用的评级系统。

你是如何选择特征的?
浏览了几个评级系统,挑选了看起来最好的那些。

你做了任何重要的特征转换吗?
并没有,除非你算上对某些球队的评级进行手动调整。

你使用了外部数据吗?(如果允许)
是的,请参阅参考资料。

训练方法

你使用了什么训练方法?
没有使用,只是使用了一个参数化模型,利用公开可用的评级系统和研究来设定参数。

你对模型进行了集成吗?
我使用了两种不同的评级系统,并进行了加权平均。

如果进行了集成,你是如何加权不同模型的?
我决定将 Moore power ratings 加权为 60%,将 Talisman Red ratings 加权为 40%,因为我以前用过 Moore ratings,知道它们很可靠。

有趣的发现

你使用的最重要的技巧是什么?
知道 UConn 大部分赛季都在带伤作战,所以他们的实力被大大低估了。

你认为是什么让你在比赛中脱颖而出?
提升 UConn 的评分,不给大热门球队(Baylor, Iowa)100% 的获胜概率。

简单的特征和方法
我的模型已经很简单了。我认为对于这场比赛,最好有一个简单的预测模型,然后利用一些直觉来调整你的概率。

模型执行时间

我的预测不需要训练,Notebook 只需要几秒钟就可以运行完毕。

参考资料

我使用的评级:

Kenpom 使用 11 分作为男子大学篮球标准差的来源(来源 1来源 2

太长不看版 (TLDR)

我认为促成我在本次比赛中成功的主要因素(按顺序)是:

  1. 不给大热门球队 100% 的获胜概率,这帮助我在 Baylor 和 Iowa 输球的情况下幸存下来。
  2. 运气(我的男子组参赛作品排名 500 多名,而且我猜男子组的冠军不小心用了 2018 年的数据???)
  3. 知道 UConn 受伤因此会被低估(如果 UConn 没有进入决赛,我想我不会获奖)