Congratulations to the top teams and summary of the experience - top3%

祝贺顶尖团队及经验总结 - 前3%

作者：Luca Basanisi | 比赛排名：第17名 | 发布日期：2021-04-06

这一年真不容易！

这是我第二次参加这项比赛，但已经是第三次构建模型了。我对结果感到满意，因为由于提交当天的愚蠢失误，结果完全来自模型本身，没有任何人工覆盖。我们可以称之为第一次“快乐的意外”，因为过度自信的预测本会彻底毁掉我的分数。

该模型是我对经典的 @raddar 模型的改进版，加上了一个逻辑回归模型，你可以在 GitHub 仓库中找到所有相关内容。

这两个模型都是在（不同的）特征集上训练的，这些特征完全来自提供的数据（这是因为我比较懒，没有使用其他人使用的进阶统计数据或投注概率）。你可以在这个 Notebook 中找到所有特征。

特征的选择由两个同等重要的因素驱动：

添加该特征应至少在过去 6 次比赛中的 3 次提高分数。
该特征的作用应符合逻辑。（例如，助攻次数在某种程度上有帮助，但也降低了一支球队获胜的概率，这对我来说没什么意义，所以我把它排除了）。

XGBoost 模型还为分差竞猜比赛生成了预测，我很高兴看到它在那里获得了第 6 名。

尽管是在不同的特征上训练并依赖于非常不同的方法，这两个模型在 94% 的情况下是一致的。然后，我通过增强那些两个模型都相当自信的比赛结果的置信度，来结合这两个模型的预测。我信任 XGBoost，因为它在过去每届比赛中都一直保持前 50 名，多亏了我过去几年所做的工作，我可以很快验证这一点，我在另一个 Notebook 中简要展示了这一点。

像许多其他人一样，它未能预测到重大的爆冷。ORU（奥罗尔罗伯茨大学）的晋级对我来说并不是特别令人担忧，因为该事件似乎足够罕见，但我需要好好研究一下为什么我的模型那么不喜欢俄勒冈州立大学。

展望未来，我觉得我在太多的比赛中使用了相同的建模方法，今年我在选择特征上稍微聪明了一点，但我感觉从中已经学不到更多东西了。因此，我希望明年能再次参加这项比赛，通过尝试完全不同的东西来承担更多风险。核心假设——即赛季表现确实可以预测单场比赛的结果——虽然合理，但并没有比有根据的猜测带来更好的预测，想到我们可以做得比那更好，这很不错。

我很好奇顶尖团队在这些比赛中做了什么来获得更好的预测，我借此机会祝贺所有的金牌得主。看着排行榜随着所有的爆冷每天变化很有趣，虽然我们都受益于一些运气，但我期待看到导致这些结果的精彩方法并向它们学习。

附言：这也是我有史以来的第一枚奖牌，感觉很不错，我不撒谎。

Congratulations to the top teams and summary of the experience - top3%

祝贺顶尖团队及经验总结 - 前3%

同比赛其他方案