返回列表

Public 531st -> Private 10th: The Complete Solution Code

559. GoDaddy - Microbusiness Density Forecasting | godaddy-microbusiness-density-forecasting

开始: 2022-12-16 结束: 2023-06-16 销量与需求预测 数据算法赛
公开榜531名 -> 私下榜第10名:完整解决方案代码

GoDaddy - 微型企业密度预测

该解决方案是3个月前提交的,如有遗漏,请告知。

比赛的目标是预测美国3315个县(County FIPS)的月度微型企业密度。代码实现结合了多个特殊特性和技术以提高预测精度。

方法

1. 预测3315个时间序列

该方法单独预测每个3315个县的微型企业密度。这使得预测能够针对特定区域进行细化,更加准确。

2. 技术指标

代码使用了流行的技术指标,如指数移动平均线 (EMA)动量 (MOM)相对强弱指数 (RSI)。这些指标捕捉潜在趋势、动量和市场状况,增强模型的预测能力。

3. 外部数据集

除了微型企业密度数据外,模型还结合了多个外部数据集。这些数据集包括失业数据收益租金DSG10税率房价人口估计等信息。通过整合这些相关外部因素,模型能够捕捉更广泛的经济和人口因素对微型企业密度的影响。

4. 使用Optuna进行超参数优化

Optuna用于在Catboost模型中最小化SMAPE

5. 使用交叉验证的Catboost模型

代码采用了Catboost模型,并使用交叉验证 (CV)来确保模型能很好地泛化到未见数据。

6. 多模型训练

为了预测多个未来时间段,训练了五个独立模型。每个模型针对特定的时间范围进行预测,如t+1个月t+2个月等。

7. 添加外部数据集

代码"6-external-datasets.ipynb"可在Kaggle上找到,用于将额外外部数据集整合到预测模型中。

局限性

  • 有限的历史数据:当前方法仅使用过去三个月的数据来预测未来微型企业密度。探索更长时间的历史数据可能提供更多上下文,并潜在地提高预测准确性。

代码文件

  • 6-external-datasets.ipynb:向预测模型添加额外外部数据集。可在Kaggle上找到,旨在增强特征集。

  • kaggle_competition_microbusiness.ipynb:包含微型企业密度预测的完整模型训练代码。涵盖数据预处理、使用CatboostOptuna进行模型训练,以及使用SMAPE进行评估。

表示支持

如果您觉得此代码实现有价值或有趣,请考虑在GitHub上为其点赞。

同比赛其他方案