557. Playground Series - Season 3, Episode 16 | playground-series-s3e16
大家好,
首先,我要衷心感谢Kaggle举办本次Playground系列比赛。在本文中,我将简要介绍我的解决方案,大部分内容都可以在我的 notebook 中找到。
我完全没有对数据进行任何预处理。
比赛中有很多出色的特征工程方案。然而,经过测试,只有以下四个特征能够显著提升我的模型性能:
X['Meat Yield'] = X['Shucked Weight'] / (X['Weight'] + X['Shell Weight'])
X['Shell Ratio'] = X['Shell Weight'] / X['Weight']
X['Weight_to_Shucked_Weight'] = X['Weight'] / X['Shucked Weight']
X['Viscera Ratio'] = X['Viscera Weight'] / X['Weight']
需要注意的是,上述特征是由 @pandeyg0811 在 这篇讨论帖 中提出的。
我采用了10折交叉验证框架,使用了以下五种模型:
然后,我使用 LADRegression 来集成这五个模型的预测结果。需要特别说明的是,在集成前,我将五个模型的预测结果四舍五入到最接近的整数(这略微提升了交叉验证的分数)。接着,我使用不同的随机种子多次运行上述框架,并通过计算每个测试集 id 的预测结果的众数来进行最终集成。
在本次比赛中,我的本地交叉验证分数与公开排行榜和私有排行榜的结果都高度一致。因此,核心经验是:请相信你的交叉验证。