465. Tabular Playground Series - Nov 2021 | tabular-playground-series-nov-2021
感谢 @chaudharypriyanshu 和 @dlaststark 提供的神经网络笔记本,感谢 @motloch 在翻转目标方面的工作,以及感谢 @grayjay 指出数据是分块的。
我所做的只是注意到训练集中每个块的翻转目标比例略有不同。在整个数据集中,这一比例约为 25%,但每个块的比例大约在 24.8% 到 25.2% 之间。虽然这是一个很小的变化,但我认为这足以获得准确率的微小提升。
我的想法是,如果测试集中的某个块的翻转目标率稍高,那么该块对整体误差的贡献就会更大,我应该将该块的预测值向 0.5 推进。
我运行了一个神经网络并提交了原始结果作为基线,然后探测了测试集中的 9 个块。我制作了 9 份基线副本,对于每一份副本,我通过将目标值与 0.5 取平均来重新缩放不同的块。结果发现,第 6 块从重新缩放中获益最多,而第 1 块和第 8 块的效果变差了。在最终提交时,我使用公式 (c*target + 0.5)/(1+c) 对神经网络的每个块进行了重新缩放,其中每个块使用了不同的 c 值。
我从这次比赛中学到的一点是,要仔细观察数据集,不要想当然。看起来 @motloch 和 @grayjay 发现了神经网络忽略的简单模式。