又是一年一度的时刻了……

作为一名平时不太关注篮球的人，这大概是一年中我会变成篮球"粉丝"的时候。不过我得说，即使作为一名 casual 观众，我也深深被吸引住了，并且非常享受观看其中一些比赛，尤其是到赛季末的比赛。

模型

我在女子比赛方面的表现不太理想，Brier分数约为0.160，主要是因为我的模型相当简单，但我觉得即使我只输入了简单的特征，预测结果还是不够果断。

我使用了Theo的逻辑回归作为基准，并添加了一些自己的特征，即重要特征的聚合指标（最小值/最大值/平均值/中位数等……），比如分差/总得分等……然后进行了一些调优。不过我相信Theo的原始notebook在女子比赛预测方面表现要好得多。

没有花太多时间在女子模型上，因为根据以往的比赛经验，我相当确定女子比赛中不会出现太多冷门，我只是专注于构建一个使用最（逻辑上）"直接"特征的模型，完全没有深入研究对阵分析。

很可能是我在男子比赛中的表现将我推上了排行榜。我的总体Brier分数约为0.195，考虑到今年出现了这么多冷门，我对这个分数相当满意。同样地，根据以往疯狂三月比赛的经验，我认为男子比赛的方差可能更大。我决定构建一个XGB模型，使用以下特征：

另外，我还没提到，有很多关于Brier分数如何鼓励更多1/0翻转和覆盖性投注的讨论。作为一个风险厌恶型的人，这不是我会做的事情，但这让我开始思考预测分布的问题。

我在这里花了很多时间，试图避免重复去年比赛中的错误，当时我的预测过于保守。以下是我尝试过的一些更有趣的事情：

令人惊讶的是，最后一个方法效果最好（明显优于其他方法），我得以得到一组我满意的预测结果，既不过于保守，当然也不过于极端。

交叉验证相关

虽然我认为交叉验证对所有机器学习问题都很重要，但在尝试调整预测分布时，我并没有太关注它。只要所有用作验证的赛季没有出现交叉验证分数下降，我就会添加/删除特征。我的最终集成模型实际上比单独的XGB模型具有更低的总体交叉验证分数。