480. March Machine Learning Mania 2022 - Womens | womens-march-mania-2022
感谢 Kaggle 再次举办这场比赛。这是让三月成为我最喜欢时节的一部分,我很感激后台为此所做的所有工作。
这里有很多关于我提交内容的详细信息,文末附有代码链接和太长不看版(TLDR)。如果有任何问题,请告诉我。
我叫 Taylor Merry,是一名居住在华盛顿州西雅图的数据科学家。
你的学术/职业背景是什么?
华盛顿大学统计学学士学位。拥有2年行业数据科学家经验。
你是否有任何 prior 经验帮助你在这场比赛中取得了成功?
是的,我参加过许多往届的 Kaggle 三月疯狂比赛。我也是大学篮球的忠实粉丝,并关注体育分析。
是什么让你决定参加这场比赛?
我很享受过去的比赛经历。
你在比赛中花了多少时间?
今年,我有很多代码是从以前的参赛作品中保留下来的,所以只花了大约20个小时左右。
你使用的训练方法
基于公开可用评级系统的正态分布(参数化模型)。
你使用的工具
我使用了公开可用的评级系统和正态分布,将分差转换为获胜概率。
训练你的模型需要多长时间
无需训练,Notebook 运行速度非常快。
最重要的特征是什么?
公开可用的评级系统。
你是如何选择特征的?
浏览了几个评级系统,挑选了看起来最好的那些。
你做了任何重要的特征转换吗?
并没有,除非你算上对某些球队的评级进行手动调整。
你使用了外部数据吗?(如果允许)
是的,请参阅参考资料。
你使用了什么训练方法?
没有使用,只是使用了一个参数化模型,利用公开可用的评级系统和研究来设定参数。
你对模型进行了集成吗?
我使用了两种不同的评级系统,并进行了加权平均。
如果进行了集成,你是如何加权不同模型的?
我决定将 Moore power ratings 加权为 60%,将 Talisman Red ratings 加权为 40%,因为我以前用过 Moore ratings,知道它们很可靠。
你使用的最重要的技巧是什么?
知道 UConn 大部分赛季都在带伤作战,所以他们的实力被大大低估了。
你认为是什么让你在比赛中脱颖而出?
提升 UConn 的评分,不给大热门球队(Baylor, Iowa)100% 的获胜概率。
简单的特征和方法
我的模型已经很简单了。我认为对于这场比赛,最好有一个简单的预测模型,然后利用一些直觉来调整你的概率。
我的预测不需要训练,Notebook 只需要几秒钟就可以运行完毕。
我使用的评级:
Kenpom 使用 11 分作为男子大学篮球标准差的来源(来源 1,来源 2)
我认为促成我在本次比赛中成功的主要因素(按顺序)是: