39th place solution: Ensemble Approach Using GBDT

665. CMI - Detect Behavior with Sensor Data | cmi-detect-behavior-with-sensor-data

开始: 2025-05-30 结束: 2025-09-02 健康管理与公共卫生数据算法赛

第 39 名解决方案：使用 GBDT 的集成方法

标题：第 39 名解决方案：使用 GBDT 的集成方法
作者：pay (junpeimorioka)
排名：第 39 名
发布时间：2025-09-03

首先，我要感谢竞赛组织者以及所有参与其中的人。我的解决方案不如顶尖竞争对手的那样强大，但由于似乎很少有将 GBDT 纳入集成的示例，我想简要分享一下我的方法。

概述

构建了两种类型的模型：仅 IMU、全传感器
- 根据 TOF 传感器的可用性，应用不同的模型。
集成由 GBDT（LightGBM, XGBoost）和 1D-CNN + LSTM 组成。
最终预测通过概率的加权求和 followed by 后处理获得。
在后处理中，根据目标组或非目标组哪个组的总概率更高，选择该组中概率最大的类别。
没有任何模型单独表现特别好，但集成后，CV 达到仅 IMU: 0.821, 全部：0.881。
未针对惯用手造成的传感器差异进行校正。
私有 leaderboard: 0.844, 公开 leaderboard: 0.863

GBDT

直接从原始数据创建新通道。
计算特征时窗口大小为 15，步长为 5。
聚合整个序列以及后半部分的窗口特征。
额外特征包括惯用手和信号长度。
在此基础上，我移除了不必要的变量并调整了超参数。
- 例如，幅度相关特征总是非负的，因此计算过零点是毫无意义的，对任何类别的预测都没有贡献。

1D-CNN + LSTM

使用了双头结构：一个用于仅 IMU，一个用于全传感器，使用多任务学习训练。
数据增强包括：
- MixUp
- 时间扭曲 (Time warping)
- 缩放 (Scaling)
- 噪声注入 (Noise injection)
为了考虑缺失的 TOF 信号，在每个 mini-batch 训练期间随机掩蔽 TOF 和 THM。
损失函数：交叉熵损失 (Cross Entropy Loss)

后处理

对目标组的 18 个类别的预测概率求和。
如果该总和 > 0.5，则预测标签为概率最高的目标类别。
否则，预测标签为概率最高的非目标类别。
此后处理将分数提高了约 0.001。

交叉验证

使用分组分层 5 折 CV，确保背景信息尽可能均匀分布。
虽然单个模型不是很强，但集成 + 后处理的组合结果是 CV: 仅 IMU 0.821, 全部 0.881。
仅 IMU

全部
全部传感器结果

感谢您的阅读。

同比赛其他方案

1st place solution

2nd Place Solution

3rd Place Solution

4th place solution

5th place solution