534. Playground Series - Season 3, Episode 6 | playground-series-s3e6
有时候,正确的方法论在这些竞赛中非常有用。当公共排行榜被那些跳过交叉验证并且仅在部分可用数据上训练的笔记本占据时,我决定比较不同的交叉验证策略。这些实验表明,具有重复 squareMeters 的样本应该与具有未见过的 squareMeters 的样本区别对待:
A. 当我使用 GroupKFold(groups=train.squareMeters) 进行交叉验证时,线性回归给出了最好的结果,优于所有基于树的模型:

B. 当我使用 KFold 进行交叉验证时,通过预测具有相同 squareMeters、made 以及有时相同 cityCode 的所有房屋的平均价格,我获得了最好的结果(这是我在数据中的准重复项中宣布的方法)。
我的最终模型包含了原始数据集,并且只使用了三个特征:squareMeters、made 和 cityCode。它分三个阶段预测测试集价格:
squareMeters、made 和 cityCode 的房屋,则预测这些房屋的平均价格。squareMeters 和 made(无论 cityCode 如何)的房屋,则预测这些房屋的平均价格。