#2 Solution

#2 解决方案

作者：ArturRa
发布时间：2022年7月1日

首先，我从上一届表格竞赛（2022年5月）的获胜者那里学到，介绍性文字可能会提供提示。我注意到了这段摘录：“该数据集与2022年5月的表格竞赛有相似之处，……”我得出结论，上一届竞赛的最佳模型必须能够理清当前数据集的相同模式。这就是为什么我决定使用2022年5月表格竞赛的第一名解决方案notebook。为此，感谢@ambrosm和@pourchot。

其次，对于 F_1 和 F_3 组，我发现没有什么比简单的均值技术更有用了。我想这对我们所有人来说都是一样的。

至于 F_4 组，我开始使用一列作为目标，其他列作为特征。因此，我调整了 F_4 组的模型，但卡在了大约 0.85 的水平。

改进我方法的富有成效的想法是由@ehekatlact提出的（感谢并参见notebook）。我将 F_4 数据分为六组：无 NaN、有一个 NaN、两个、三个、四个和五个 NaN。第一组用于训练，其他组用于预测。但是，我通过改变输出的数量为这些 x-NaNs 组训练了不同的模型。例如，对于 F_4_0 和 F_4_1 列中有两个 NaN 的组，我使用了两个输出（对应这两列）和 13 个特征作为输入（对应 F_4_2 到 F_4_14 列）。因此，我必须训练的模型数量远不止 80 个回归器（参见讨论）。这花费了大量时间进行训练。这就是为什么我的工作由不同的 notebook 组成。

我的 4-NaNs 组训练 notebook 示例在这里。将 F_4 数据拆分为六组的分析在这里。

最终，我卡在了大约 0.8358，无法做任何进一步的改进。这足以获得第二名，但我仍然落后于第一名。我只能说：恭喜Sebastian van Gerwen。

#2 解决方案

同比赛其他方案