返回列表

21st place solution (link to R kernel)

360. 2019 Data Science Bowl | data-science-bowl-2019

开始: 2019-10-24 结束: 2020-01-22 学习效果预测 数据算法赛
第21名方案(R内核链接)

第21名方案(R内核链接)

作者:Arturo Garcia | 比赛排名:第21名

首先,感谢 BS Kids 和 Kaggle 团队举办了这场精彩的比赛,并祝贺获奖者和奖牌获得者。

我没能在这个比赛中投入我希望那么多精力,所以能获得奖牌感觉真的很棒。离金牌只有一步之遥有点令人失望,但我不能抱怨,因为我的解决方案非常简单,而且我认为我在最终结果上很幸运。

特征工程

我生成了 754 个特征,其中大部分与你在公共内核中发现的非常相似。对于“游戏”类型的会话,我创建了考虑不同回合(大多数游戏有三个回合)的特征。

特征筛选

我只删除了重复的和非常相似(>99% 相同值)的变量。最终我保留了 649 个特征。

模型

我以 第1名方案第2名方案Prudential Life 比赛 为灵感。我的模型首先由三个 lgb 二分类器(0 vs 123,01 vs 23,012 vs 3)组成,使用 5 折交叉验证。然后,我使用这些模型的结果加上评估标题作为线性回归模型的特征,以获得最终的连续预测值。

阈值定义

我使用了带有 Nelder-Mead 算法的 R 语言 optim 函数。为了获得初始系数,我使用了这里解释的黄金分割法。通常情况下,这种两步过程比单独使用其中任何一种方法能获得更好的分数。

代码链接

你可以在这里查看内核。

同比赛其他方案