第 39 名解决方案:使用 GBDT 的集成方法
首先,我要感谢竞赛组织者以及所有参与其中的人。我的解决方案不如顶尖竞争对手的那样强大,但由于似乎很少有将 GBDT 纳入集成的示例,我想简要分享一下我的方法。
概述
- 构建了两种类型的模型:仅 IMU、全传感器
- 集成由 GBDT(LightGBM, XGBoost)和 1D-CNN + LSTM 组成。
- 最终预测通过概率的加权求和 followed by 后处理获得。
- 在后处理中,根据目标组或非目标组哪个组的总概率更高,选择该组中概率最大的类别。
- 没有任何模型单独表现特别好,但集成后,CV 达到 仅 IMU: 0.821, 全部:0.881。
- 未针对惯用手造成的传感器差异进行校正。
- 私有 leaderboard: 0.844, 公开 leaderboard: 0.863
GBDT
- 直接从原始数据创建新通道。
- 计算特征时窗口大小为 15,步长为 5。
- 聚合整个序列以及后半部分的窗口特征。
- 额外特征包括惯用手和信号长度。
- 在此基础上,我移除了不必要的变量并调整了超参数。
- 例如,幅度相关特征总是非负的,因此计算过零点是毫无意义的,对任何类别的预测都没有贡献。

1D-CNN + LSTM
- 使用了双头结构:一个用于仅 IMU,一个用于全传感器,使用多任务学习训练。
- 数据增强包括:
- MixUp
- 时间扭曲 (Time warping)
- 缩放 (Scaling)
- 噪声注入 (Noise injection)
- 为了考虑缺失的 TOF 信号,在每个 mini-batch 训练期间随机掩蔽 TOF 和 THM。
- 损失函数:交叉熵损失 (Cross Entropy Loss)

后处理
- 对目标组的 18 个类别的预测概率求和。
- 如果该总和 > 0.5,则预测标签为概率最高的目标类别。
- 否则,预测标签为概率最高的非目标类别。
- 此后处理将分数提高了约 0.001。
交叉验证
- 使用分组分层 5 折 CV,确保背景信息尽可能均匀分布。
- 虽然单个模型不是很强,但集成 + 后处理的组合结果是 CV: 仅 IMU 0.821, 全部 0.881。
仅 IMU

全部

感谢您的阅读。