554. Playground Series - Season 3, Episode 15 | playground-series-s3e15
本次比赛我只有几个小时的时间,因为当天才开始,但尽管如此,一切皆有可能,很高兴能获得第9名 😊
最终的解决方案融合了我截止日期前认为可行的一些想法:
通过伪标签扩展训练数据: 使用排名前列的5个公开方案的集成结果,为缺失的目标值生成伪标签。
使用Sklearn IterativeImputer结合DecisionTreeRegressor进行特征工程: 由于训练数据在特征和目标中都存在大量缺失值,采用Sklearn IterativeImputer配合DecisionTreeRegressor是一个不错的替代方案,并可与其他标准的缺失值处理方法集成使用。
使用AutoML框架加速流程: 这对于回归问题尤其是一个很好的选择,因为它们提供了多种不同的模型,有利于最终集成。
基于上述思路,我利用Auto Gluon框架共训练了5种不同的解决方案,例如:一种是原始未改动训练流程,另一种是多次迭代进行Sklearn IterativeImputer + DecisionTreeRegressor特征工程,还包括两阶段伪标签(先使用公开方案,再使用训练好的AG模型生成),以及采用AG的FTTransformer模型。
这5个训练好的解决方案随后根据结果进行了加权集成。
就是这样!😊