返回列表

39th place solution: Ensemble Approach Using GBDT

665. CMI - Detect Behavior with Sensor Data | cmi-detect-behavior-with-sensor-data

开始: 2025-05-30 结束: 2025-09-02 健康管理与公共卫生 数据算法赛
第 39 名解决方案:使用 GBDT 的集成方法
标题:第 39 名解决方案:使用 GBDT 的集成方法
作者:pay (junpeimorioka)
排名:第 39 名
发布时间:2025-09-03

首先,我要感谢竞赛组织者以及所有参与其中的人。我的解决方案不如顶尖竞争对手的那样强大,但由于似乎很少有将 GBDT 纳入集成的示例,我想简要分享一下我的方法。


概述

  • 构建了两种类型的模型:仅 IMU、全传感器
    • 根据 TOF 传感器的可用性,应用不同的模型。
  • 集成由 GBDT(LightGBM, XGBoost)和 1D-CNN + LSTM 组成。
  • 最终预测通过概率的加权求和 followed by 后处理获得。
  • 在后处理中,根据目标组或非目标组哪个组的总概率更高,选择该组中概率最大的类别。
  • 没有任何模型单独表现特别好,但集成后,CV 达到 仅 IMU: 0.821, 全部:0.881。
  • 未针对惯用手造成的传感器差异进行校正。
  • 私有 leaderboard: 0.844, 公开 leaderboard: 0.863

GBDT

  • 直接从原始数据创建新通道。
  • 计算特征时窗口大小为 15,步长为 5。
  • 聚合整个序列以及后半部分的窗口特征。
  • 额外特征包括惯用手和信号长度。
  • 在此基础上,我移除了不必要的变量并调整了超参数。
    • 例如,幅度相关特征总是非负的,因此计算过零点是毫无意义的,对任何类别的预测都没有贡献。
      GBDT 特征示例

1D-CNN + LSTM

  • 使用了双头结构:一个用于仅 IMU,一个用于全传感器,使用多任务学习训练。
  • 数据增强包括:
    • MixUp
    • 时间扭曲 (Time warping)
    • 缩放 (Scaling)
    • 噪声注入 (Noise injection)
  • 为了考虑缺失的 TOF 信号,在每个 mini-batch 训练期间随机掩蔽 TOF 和 THM。
  • 损失函数:交叉熵损失 (Cross Entropy Loss)
    模型结构图

后处理

  • 对目标组的 18 个类别的预测概率求和。
  • 如果该总和 > 0.5,则预测标签为概率最高的目标类别。
  • 否则,预测标签为概率最高的非目标类别。
  • 此后处理将分数提高了约 0.001。

交叉验证

  • 使用分组分层 5 折 CV,确保背景信息尽可能均匀分布。
  • 虽然单个模型不是很强,但集成 + 后处理的组合结果是 CV: 仅 IMU 0.821, 全部 0.881。
    仅 IMU
    仅 IMU 结果

全部
全部传感器结果

感谢您的阅读。

同比赛其他方案