The View from 46th Place

第46名的视角

作者：John Mitchell
发布时间：2021年4月7日

很高兴看到 Kaggle 举办了一系列体育预测竞赛，这是对球迷们的梦幻体育浪潮以及球队和媒体的分析热潮的致敬，正是这些将体育数据带入了主流。

如果这是足球（就是19世纪英国人为了区别于橄榄球而称之为 Soccer 的那个运动），或者更好的是板球——一种更明显的以统计数据为中心的运动，我会充满关于特征的想法，用来区分强队和弱队。而且可能会过度自信，因为虽然任何球迷都可能对球队排名做得不错，但预测准确的概率完全是另一回事。举世公认的事实是，人类的进化是为了某种目的，而不是为了精确计算概率。当然，这也是机器和博彩公司派上用场的地方。但这是大学篮球，一项在遥远的国家（对我而言）由我几乎一无所知的球队所从事的运动。这也很奇怪，虽然我有点理解第16号种子的附加赛，但为什么“前四名”球队会被传送到第11号种子的位置？

第一阶段对于熟悉技术和数据很有用，但考虑到数据泄露和过拟合方法的多样性，对于评估模型几乎毫无用处。然而，考虑到第二阶段提交的周转时间很短，这可能是必要的练习。

我在第二阶段的策略是选择一个好的初始估计源，然后找到合适的变体，这会给我一些自己的投入感和竞赛空间中的一点社交距离。@salma - @moore - @raddar 的方法，即2019年 Kaggle NCAAM 的获胜者，符合预测质量和可用性的标准。选择将 110% 的 Salma-Moore-Raddar 与负 10% 的默认“人人平等”的 0.5 提交进行集成，给了我一个适合爆冷较少的锦标赛的激进模型。在我第一次尝试 NCAAW 时，我采用了相同预测器的 99% 和 1% 的混合作为谨慎的第二模型，但被新手错误打败了，没有伴随更保守的上限。因此，我发现我的两个提交都卡在 NCAAW 奖牌的边缘，排在 18 个明显的 S-M-R 公共内核克隆的苏伊士运河堵塞后面，然后我们所有的机会都被一次太多的爆冷引爆了。

然而，对于 NCAAM，我做了一些我以前在选举中为了好玩而做的事情。也就是说，去一个英国赔率汇总网站，正如我的外部数据披露中所示，以更好地了解真实的概率。我做出了某种“理性博彩市场”的假设，即那些在游戏中投入巨大的人比我拥有更好的知识，可能还有更好的分析能力。是的，我知道市场可能会受到非理性力量的影响，甚至被“游戏停止”。他们有所有已确定的第一轮对阵的赔率，所以获得概率只是切换到我觉得最容易解释的赔率呈现形式，并做一些相当简单的计算。例如，阿肯色州被列为 1-4 击败科尔盖特，这导致最初的朴素概率估计为 0.8。但我们还没完成；科尔盖特是 17-5，朴素估计为 0.227。因此，朴素概率总和为 1.027，这超过了 100%，因为博彩公司开着昂贵的汽车，确保市场中有过一轮。所以，朴素概率需要重新归一化总和为 1.000，这里简单地除以 1.027，得出阿肯色州为 0.779，科尔盖特为 0.221。

事实证明，我的基于赔率的方法在第一轮表现优于 S-M-R，此后被锁定为我更好的 NCAAM 提交（尽管在让分比赛中表现糟糕）。几乎与我的 NCAAW 模型被挤出奖牌榜的同时，S-M-R 和赔率的 NCAAM 混合进入了奖牌区，对贝勒大学和冈萨加大学的评估接近 50-50，确保了最后一天的无风险。决赛中的小冷门足以将我的奖牌升级为银牌，这是一个惊喜，因为我原本预计会被一小群决赛 1-0 抛硬币的人超越。

一些理论思考。当我第一次看到类似香农熵的评分公式时，我的最初想法是——“这很聪明，它将奖励最准确的概率预测”。现在，我不太确定了。首先出现的问题是对近乎确定性的 1-0 赌博，以及将估计值限制在某个合理水平以避免崩溃的相反情况。我现在看到@jtrotman的今年的第10名，2019年 Madtown 的第三名预测和@jleecook的2019年 NCAAW 获胜者都经过了重度离散化。在明年

第46名的视角

同比赛其他方案