返回列表

#2 Solution

497. Tabular Playground Series - Jun 2022 | tabular-playground-series-jun-2022

开始: 2022-06-01 结束: 2022-06-30 数据算法赛
#2 解决方案

#2 解决方案

作者:ArturRa
发布时间:2022年7月1日

首先,我从上一届表格竞赛(2022年5月)的获胜者那里学到,介绍性文字可能会提供提示。我注意到了这段摘录:“该数据集与2022年5月的表格竞赛有相似之处,……”我得出结论,上一届竞赛的最佳模型必须能够理清当前数据集的相同模式。这就是为什么我决定使用2022年5月表格竞赛的第一名解决方案notebook。为此,感谢@ambrosm@pourchot

其次,对于 F_1 和 F_3 组,我发现没有什么比简单的均值技术更有用了。我想这对我们所有人来说都是一样的。

至于 F_4 组,我开始使用一列作为目标,其他列作为特征。因此,我调整了 F_4 组的模型,但卡在了大约 0.85 的水平。

改进我方法的富有成效的想法是由@ehekatlact提出的(感谢并参见notebook)。我将 F_4 数据分为六组:无 NaN、有一个 NaN、两个、三个、四个和五个 NaN。第一组用于训练,其他组用于预测。但是,我通过改变输出的数量为这些 x-NaNs 组训练了不同的模型。例如,对于 F_4_0 和 F_4_1 列中有两个 NaN 的组,我使用了两个输出(对应这两列)和 13 个特征作为输入(对应 F_4_2 到 F_4_14 列)。因此,我必须训练的模型数量远不止 80 个回归器(参见讨论)。这花费了大量时间进行训练。这就是为什么我的工作由不同的 notebook 组成。

我的 4-NaNs 组训练 notebook 示例在这里。将 F_4 数据拆分为六组的分析在这里

最终,我卡在了大约 0.8358,无法做任何进一步的改进。这足以获得第二名,但我仍然落后于第一名。我只能说:恭喜Sebastian van Gerwen

同比赛其他方案