返回列表

#2 Position | Just FE and AutoML

624. Playground Series - Season 4, Episode 9 | playground-series-s4e9

开始: 2024-09-01 结束: 2024-09-30 定价与促销 数据算法赛
#2 名次 | 仅特征工程与 AutoML

#2 名次 | 仅特征工程与 AutoML

作者: Gerlando Re
发布时间: 2024-10-02
竞赛排名: 2

大家好,

我想分享一下我在这次比赛中的方法,以供感兴趣的朋友参考。

在特征工程方面,我采取了以下步骤:

  • 简化了变速箱值,分别将 "Automatic" 和 "Manual" 合并为 "A/T" 和 "M/T"
    从数据中提取了豪华品牌
  • 从发动机列衍生特征,包括马力、气缸及其组合
  • 创建了特征交叉,例如 int_ext_col, brand_model, brand_int_col, brand_ext_col 和 brand_mileage
  • 基于分位数识别并将每个特征中低频类别标记为噪声
  • 使用车龄和里程创建了一个 mileage_per_year 特征
  • 当然,还处理了缺失值

在建模方面,我使用 Optuna 尝试了 CatBoost Regressor 和 LGBM Regressor,但最好的结果来自使用 AutoGluon 拟合的加权集成(Weighted Ensemble)。通过融入额外数据,我进一步提高了分数。

不得不说,我仍然对最终排行榜的变动感到震惊!没想到能获得第二名,尤其是考虑到我只有非常有限的时间来尝试不同的方法。我对这个结果感到兴奋和感激。

我还要特别感谢 @roberthatch@cdeotte 在整个比赛期间富有洞察力的讨论和贡献。这是一次很棒的经历,我很高兴能参与其中。

再次感谢,祝贺所有参与者!✌️

同比赛其他方案