返回列表

The View from 46th Place

430. March Machine Learning Mania 2021 - NCAAM | ncaam-march-mania-2021

开始: 2021-02-25 结束: 2021-04-06 赛事预测 数据算法赛
第46名的视角

第46名的视角

作者:John Mitchell
发布时间:2021年4月7日

很高兴看到 Kaggle 举办了一系列体育预测竞赛,这是对球迷们的梦幻体育浪潮以及球队和媒体的分析热潮的致敬,正是这些将体育数据带入了主流。

如果这是足球(就是19世纪英国人为了区别于橄榄球而称之为 Soccer 的那个运动),或者更好的是板球——一种更明显的以统计数据为中心的运动,我会充满关于特征的想法,用来区分强队和弱队。而且可能会过度自信,因为虽然任何球迷都可能对球队排名做得不错,但预测准确的概率完全是另一回事。举世公认的事实是,人类的进化是为了某种目的,而不是为了精确计算概率。当然,这也是机器和博彩公司派上用场的地方。但这是大学篮球,一项在遥远的国家(对我而言)由我几乎一无所知的球队所从事的运动。这也很奇怪,虽然我有点理解第16号种子的附加赛,但为什么“前四名”球队会被传送到第11号种子的位置?

第一阶段对于熟悉技术和数据很有用,但考虑到数据泄露和过拟合方法的多样性,对于评估模型几乎毫无用处。然而,考虑到第二阶段提交的周转时间很短,这可能是必要的练习。

我在第二阶段的策略是选择一个好的初始估计源,然后找到合适的变体,这会给我一些自己的投入感和竞赛空间中的一点社交距离。@salma - @moore - @raddar 的方法,即2019年 Kaggle NCAAM 的获胜者,符合预测质量和可用性的标准。选择将 110% 的 Salma-Moore-Raddar 与负 10% 的默认“人人平等”的 0.5 提交进行集成,给了我一个适合爆冷较少的锦标赛的激进模型。在我第一次尝试 NCAAW 时,我采用了相同预测器的 99% 和 1% 的混合作为谨慎的第二模型,但被新手错误打败了,没有伴随更保守的上限。因此,我发现我的两个提交都卡在 NCAAW 奖牌的边缘,排在 18 个明显的 S-M-R 公共内核克隆的苏伊士运河堵塞后面,然后我们所有的机会都被一次太多的爆冷引爆了。

然而,对于 NCAAM,我做了一些我以前在选举中为了好玩而做的事情。也就是说,去一个英国赔率汇总网站,正如我的外部数据披露中所示,以更好地了解真实的概率。我做出了某种“理性博彩市场”的假设,即那些在游戏中投入巨大的人比我拥有更好的知识,可能还有更好的分析能力。是的,我知道市场可能会受到非理性力量的影响,甚至被“游戏停止”。他们有所有已确定的第一轮对阵的赔率,所以获得概率只是切换到我觉得最容易解释的赔率呈现形式,并做一些相当简单的计算。例如,阿肯色州被列为 1-4 击败科尔盖特,这导致最初的朴素概率估计为 0.8。但我们还没完成;科尔盖特是 17-5,朴素估计为 0.227。因此,朴素概率总和为 1.027,这超过了 100%,因为博彩公司开着昂贵的汽车,确保市场中有过一轮。所以,朴素概率需要重新归一化总和为 1.000,这里简单地除以 1.027,得出阿肯色州为 0.779,科尔盖特为 0.221。

事实证明,我的基于赔率的方法在第一轮表现优于 S-M-R,此后被锁定为我更好的 NCAAM 提交(尽管在让分比赛中表现糟糕)。几乎与我的 NCAAW 模型被挤出奖牌榜的同时,S-M-R 和赔率的 NCAAM 混合进入了奖牌区,对贝勒大学和冈萨加大学的评估接近 50-50,确保了最后一天的无风险。决赛中的小冷门足以将我的奖牌升级为银牌,这是一个惊喜,因为我原本预计会被一小群决赛 1-0 抛硬币的人超越。

一些理论思考。当我第一次看到类似香农熵的评分公式时,我的最初想法是——“这很聪明,它将奖励最准确的概率预测”。现在,我不太确定了。首先出现的问题是对近乎确定性的 1-0 赌博,以及将估计值限制在某个合理水平以避免崩溃的相反情况。我现在看到@jtrotman今年的第10名2019年 Madtown 的第三名预测@jleecook2019年 NCAAW 获胜者都经过了重度离散化。在明年

同比赛其他方案