返回列表

#5 Solution

481. March Machine Learning Mania 2022 - Men’s | mens-march-mania-2022

开始: 2022-02-19 结束: 2022-04-05 赛事预测 数据算法赛
#5 解决方案

#5 解决方案

作者:tomy4reel | 比赛排名:第5名

首先,我要感谢比赛主办方、Kaggle 团队(@addisonhoward)和 @jeffsonas 组织了这场比赛。
我也要祝贺 @amirghazi 获得冠军,并鼓励那些因一两个名次或几场比赛而错失榜首或奖牌的朋友们。

关于我

这是我第一次参加这项比赛,必须说这真的很有趣。这也是我第一次建立篮球预测模型。过去我有一些经验,曾使用线性回归/其他回归模型以及跨赛季的各种数据/元数据,为欧洲足球主客队的全场/半场进球数建立模型(通常很容易过拟合,而简单的模型往往随着时间/赛季的推移表现更好)。
无论如何,我参加了 @zachmayerDatacamp 上的课程,从中获得了这次比赛的基本思路和动力。

公开方案

我的第5名解决方案 Python 代码可以在这里找到。

数据集和特征

我只使用了比赛主办方提供的一部分数据。
我使用了当前的种子排名、历史胜率统计以及前几个赛季的比赛场次,这些数据可以反映球队在比赛中的深入程度。

模型选择

使用了 CatBoostClassifier,目标函数为 Logloss,并包含了一些类别特征。

交叉验证

仅使用最近2个可用赛季的数据进行验证;我没有在初始排行榜上进行任何提交。

我未尝试的内容

  1. 我没有裁剪或修改我的预测概率。
  2. 我没有使用 @raddar 的任何模型或数据集(因为我没有及时看到)。

模型表现

我的目标不是赢得金牌。我只是尝试建立一个好的模型,最初主要通过比较我与 @raddar@zachmayer 的排行榜位置来判断我的表现;后来则是与 @koki25ando@fritzcremer@dynamic24 进行比较。

局限性

  1. 时间: 我开始着手这项比赛的时间较晚。
  2. 知识: 我对某些数据集和特征了解甚少。但主办方提供的数据描述非常有帮助。请继续保持。👍
同比赛其他方案