15th Place Solution

586. Child Mind Institute - Detect Sleep States | child-mind-institute-detect-sleep-states

开始: 2023-09-05 结束: 2023-12-05 健康管理与公共卫生数据算法赛

第15名解决方案

作者：kaerururu（Kaggle Grandmaster）
发布时间：2023年12月8日
团队成员：furu-nag、mizoo、Isamu、tereka
投票数：24

首先，我要感谢Kaggle团队和主办方举办这次比赛，并感谢许多其他参与者分享代码、想法和数据集。特别感谢我的队友（furu、mizoo、isamu、tereka）一起在比赛中合作，以及感谢213tubo分享了如此棒的pipeline。

概述

我们的最终提交是总共55个模型的集成，包括十一个5折模型。
我们的解决方案有四个主要部分。它们是furu、mizoo、kaerururu部分、isamu部分、tereka部分和后处理部分。

furu、mizoo、kaerururu部分

我们的pipeline基于213tubo的pipeline。
架构是各种特征提取器 -> Unet编码器 -> Unet1d解码器。
发作（onset）CV最佳模型和醒来（wakeup）CV最佳模型被分开保存。

特征工程
- 使用均值和标准差对anglez、enmo进行归一化
- anglez、enmo、小时特征（正弦、余弦）
特征提取器
- LSTMFeatureExtractor
- CNNSpectrogram
- GRUFeatureExtractor
Unet编码器
- 各种预训练权重
  - resnet18
  - resnet34
  - inceptionv4
Unet1d解码器
各种持续时间
- 17280（24小时）
- 5760（8小时）

isamu部分

Isamu有两种模型架构。一种是基于帕金森比赛第4名解决方案的MultiResidualBiGRU模型，另一种是基于Wavenet的模型。

特征工程
- 使用均值和标准差对anglez、enmo进行归一化
- 使用各种方式（最小值、最大值、平均值、标准差、中位数）对序列进行下采样堆叠

tereka部分

Tereka有两种模型架构。一种是Unet基础模型，另一种是Transformer基础模型。

特征工程
- 使用均值和标准差对anglez、enmo进行归一化
- anglez、enmo、差分（anglez、enmo）、小时特征（正弦、余弦）
使用模型输出的移动平均（窗口大小=12）。

后处理

未佩戴检测
- 基于规则（关注每日周期）和基于随机森林模型的方法都有效。
- 最终提交的一个使用基于规则的方法，另一个使用基于随机森林模型的方法。
当预测值的步长step=0时，将step值设为+1
在24小时内提升候选值
- 考虑到事件在24小时内具有周期性，将在24小时内概率最大的候选值进行提升

什么方法有效

在训练和验证阶段移除8个有噪声的样本
添加完整训练（Add fulltrain）
阈值越低，分数越好
- 阈值越低，提交评分出错的概率越高:(
指数移动平均
标签平滑
结合BCE损失和Dice损失（仅应用于峰值）

什么方法无效

更大的模型骨干
位置编码
日期嵌入
第二阶段神经网络模型
层学习率调整
Transformer解码器
将发作预测值数组的前0:3000步和醒来预测值数组的后-3000:步设置为0

最终提交结果的CV、LB和Private分数对比

名称	CV	LB	Private
提交1（CV最佳）	0.8125	0.773	0.823
提交2（LB最佳）	-	0.778	0.822

有/无后处理的CV、LB和Private分数对比

名称	CV	LB	Private
有后处理	0.8125	0.773	0.823(+0.011)
无后处理	-	0.767	0.812

每个单模型的最佳分数

名称	模型	CV	LB	Private
furu模型	GRUINITFeatureExtractor-UNet1DDecoder	0.7689665	0.746	0.8
kaerururu模型1	GRUFeatureExtractor-UNet1DDecoder	0.743	-	-
kaerururu模型2	GRUFeatureExtractor-UNet1DDecoder	0.733	-	-
mizoo模型	LSTMFeatureExtractor-UNet1DDecoder	0.7508	0.736	0.784
Isamu模型1	wavenet_lstm	0.773	-	-
Isamu模型2	1d-gru	0.775	-	-
tereka模型1	unet base	0.764	0.752	0.803
tereka模型2	transformer base	0.773	0.729	0.797

重要引用

213 tubo's pipeline
- https://github.com/tubo213/kaggle-child-mind-institute-detect-sleep-states
parkinson 4th place solution
- https://www.kaggle.com/competitions/tlvmc-parkinsons-freezing-gait-prediction/discussion/416410

同比赛其他方案

1st place solution

2nd Place Solution

3rd place solution - GRU, UNET and LGB!

4th Place Solution - Nikhil's Part (Modified Unet + Transformer and Weighted Box Fusion)

5th place solution