360. 2019 Data Science Bowl | data-science-bowl-2019
首先,感谢 BS Kids 和 Kaggle 团队举办了这场精彩的比赛,并祝贺获奖者和奖牌获得者。
我没能在这个比赛中投入我希望那么多精力,所以能获得奖牌感觉真的很棒。离金牌只有一步之遥有点令人失望,但我不能抱怨,因为我的解决方案非常简单,而且我认为我在最终结果上很幸运。
我生成了 754 个特征,其中大部分与你在公共内核中发现的非常相似。对于“游戏”类型的会话,我创建了考虑不同回合(大多数游戏有三个回合)的特征。
我只删除了重复的和非常相似(>99% 相同值)的变量。最终我保留了 649 个特征。
我以 第1名方案 和 第2名方案 的 Prudential Life 比赛 为灵感。我的模型首先由三个 lgb 二分类器(0 vs 123,01 vs 23,012 vs 3)组成,使用 5 折交叉验证。然后,我使用这些模型的结果加上评估标题作为线性回归模型的特征,以获得最终的连续预测值。
我使用了带有 Nelder-Mead 算法的 R 语言 optim 函数。为了获得初始系数,我使用了这里解释的黄金分割法。通常情况下,这种两步过程比单独使用其中任何一种方法能获得更好的分数。
你可以在这里查看内核。