返回列表

25th Place Silver – MITSUI&CO. Commodity Prediction Challenge Writeup

685. MITSUI&CO. Commodity Prediction Challenge | mitsui-commodity-prediction-challenge

开始: 2025-07-24 结束: 2026-01-16 量化投资 数据算法赛
25th Place Silver – MITSUI&CO. Commodity Prediction Challenge Writeup

第 25 名银奖 – MITSUI&CO. 商品预测挑战赛解题报告

基于分组集成与推理时滞后混合的稳定商品预测方案

作者: Halil İbrahim Akça
发布日期: 2026-01-20
竞赛排名: 第 25 名 (银奖)

概述

本方案基于表格模型的分组集成,并结合了推理时的滞后混合
目标使用 target_pairs.csv 中的元数据(LME / JPX / US / FX)进行分组,每组使用受限的、与市场相关的特征集进行训练,以减少噪声。
最重要的性能提升来自于推理过程中对提供的标签滞后(1-4)的大量利用

目标分组

根据从 target_pairs.csvpair 字段中提取的市场信息将目标分配给各组。
单一市场和跨市场目标分开处理,使每组能够专注于其主导的市场动态。
每组使用不同的特征子集,主要是与该市场相关的原始信号和聚合数据。

特征工程

特征主要是横截面的,并按时间步计算:

  • 全局统计量:均值、标准差、最小值、最大值、百分位数、偏度、峰度、四分位距 (IQR)
  • LME、JPX、US 和 FX 的市场级聚合数据
  • 高方差原始信号(按方差排名前 ~150),包含一阶差分
  • 选定信号上的轻量级技术指标(SMA、类 RSI、布林带宽度)
  • 有限的交互和比率特征

所有特征都清理了 NaN/inf,并保守填充以避免泄漏。

建模

对于每个目标,训练三个模型:

  • LightGBM (GBDT):在数据量允许时使用时间序列分割 (TimeSeriesSplit)
  • CatBoostRegressor:具有适中的深度和学习率
  • Ridge Regression:作为线性基线/稳定器

这些模型的预测在目标级别进行均匀平均

推理时滞后混合

在推理期间,提供的 label_lags_1label_lags_4 被混合到预测中:

  • 对 lag-1 赋予强权重,较旧滞后的权重递减
  • 使用最近的 lag-1 值添加一个小动量项

最终预测是模型输出和基于滞后信号的加权组合。

平滑与归一化

为了减少步长间的波动:

  • 使用 recent 预测应用短期 EMA 风格平滑
  • 使用横截面归一化以保持相对排名
  • 裁剪极端值以保持稳定性

验证

模型在训练数据的最近部分进行训练。
在适用的情况下使用时间序列分割,Leaderboard 一致性是模型选择的主要标准。

代码

完整实现: https://www.kaggle.com/code/halilaka/notebook5da6d36740

同比赛其他方案