497. Tabular Playground Series - Jun 2022 | tabular-playground-series-jun-2022
首先,我从上一届表格竞赛(2022年5月)的获胜者那里学到,介绍性文字可能会提供提示。我注意到了这段摘录:“该数据集与2022年5月的表格竞赛有相似之处,……”我得出结论,上一届竞赛的最佳模型必须能够理清当前数据集的相同模式。这就是为什么我决定使用2022年5月表格竞赛的第一名解决方案notebook。为此,感谢@ambrosm和@pourchot。
其次,对于 F_1 和 F_3 组,我发现没有什么比简单的均值技术更有用了。我想这对我们所有人来说都是一样的。
至于 F_4 组,我开始使用一列作为目标,其他列作为特征。因此,我调整了 F_4 组的模型,但卡在了大约 0.85 的水平。
改进我方法的富有成效的想法是由@ehekatlact提出的(感谢并参见notebook)。我将 F_4 数据分为六组:无 NaN、有一个 NaN、两个、三个、四个和五个 NaN。第一组用于训练,其他组用于预测。但是,我通过改变输出的数量为这些 x-NaNs 组训练了不同的模型。例如,对于 F_4_0 和 F_4_1 列中有两个 NaN 的组,我使用了两个输出(对应这两列)和 13 个特征作为输入(对应 F_4_2 到 F_4_14 列)。因此,我必须训练的模型数量远不止 80 个回归器(参见讨论)。这花费了大量时间进行训练。这就是为什么我的工作由不同的 notebook 组成。
我的 4-NaNs 组训练 notebook 示例在这里。将 F_4 数据拆分为六组的分析在这里。
最终,我卡在了大约 0.8358,无法做任何进一步的改进。这足以获得第二名,但我仍然落后于第一名。我只能说:恭喜Sebastian van Gerwen。