25th Place Silver – MITSUI&CO. Commodity Prediction Challenge Writeup

第 25 名银奖 – MITSUI&CO. 商品预测挑战赛解题报告

基于分组集成与推理时滞后混合的稳定商品预测方案

作者: Halil İbrahim Akça

发布日期: 2026-01-20

竞赛排名: 第 25 名 (银奖)

概述

本方案基于表格模型的分组集成，并结合了推理时的滞后混合。
目标使用 target_pairs.csv 中的元数据（LME / JPX / US / FX）进行分组，每组使用受限的、与市场相关的特征集进行训练，以减少噪声。
最重要的性能提升来自于推理过程中对提供的标签滞后（1-4）的大量利用。

目标分组

根据从 target_pairs.csv 的 pair 字段中提取的市场信息将目标分配给各组。
单一市场和跨市场目标分开处理，使每组能够专注于其主导的市场动态。
每组使用不同的特征子集，主要是与该市场相关的原始信号和聚合数据。

特征工程

特征主要是横截面的，并按时间步计算：

全局统计量：均值、标准差、最小值、最大值、百分位数、偏度、峰度、四分位距 (IQR)
LME、JPX、US 和 FX 的市场级聚合数据
高方差原始信号（按方差排名前 ~150），包含一阶差分
选定信号上的轻量级技术指标（SMA、类 RSI、布林带宽度）
有限的交互和比率特征

所有特征都清理了 NaN/inf，并保守填充以避免泄漏。

建模

对于每个目标，训练三个模型：

LightGBM (GBDT)：在数据量允许时使用时间序列分割 (TimeSeriesSplit)
CatBoostRegressor：具有适中的深度和学习率
Ridge Regression：作为线性基线/稳定器

这些模型的预测在目标级别进行均匀平均。

推理时滞后混合

在推理期间，提供的 label_lags_1 到 label_lags_4 被混合到预测中：

对 lag-1 赋予强权重，较旧滞后的权重递减
使用最近的 lag-1 值添加一个小动量项

最终预测是模型输出和基于滞后信号的加权组合。

平滑与归一化

为了减少步长间的波动：

使用 recent 预测应用短期 EMA 风格平滑
使用横截面归一化以保持相对排名
裁剪极端值以保持稳定性

验证

模型在训练数据的最近部分进行训练。
在适用的情况下使用时间序列分割，Leaderboard 一致性是模型选择的主要标准。

代码

完整实现: https://www.kaggle.com/code/halilaka/notebook5da6d36740