返回列表

11th Place Solution for the Child Mind Institute — Problematic Internet Use Competition

633. Child Mind Institute — Problematic Internet Use | child-mind-institute-problematic-internet-use

开始: 2024-09-19 结束: 2024-12-19 健康管理与公共卫生 数据算法赛
儿童心理研究所 — 问题性互联网使用竞赛 第 11 名解决方案

儿童心理研究所 — 问题性互联网使用竞赛 第 11 名解决方案

作者: Hezhi Xie (团队领导), BOQI ZHAO, Chengkai Shi, Steven_Deng
发布日期: 2024-12-23
竞赛排名: 第 11 名 (金牌)

我们很兴奋能在首次 Kaggle 竞赛中获得金牌,并深深感谢 Kaggle 的每一个人分享的所有内容,这对我们的学习之旅贡献巨大。在这篇 write-up 中,我们很高兴分享我们的解决方案和关键收获。

背景

方法概述

我们的模型基于这个 Notebook:https://www.kaggle.com/code/laiyunghwei/lb-0-493。我们使用了三个梯度提升模型——LightGBM、XGBoost 和 CatBoost——并使用等权重的投票回归器将它们结合起来。

提交详情

探索性数据分析 (EDA)

缺失值

缺失数据是一个重大挑战。几乎所有特征(除了人口统计特征)都包含缺失值,其中约 10 个特征的缺失率超过 70%。目标变量也有大约 30% 的缺失数据。

此外,来自同一工具的特征具有相似的缺失率,并且缺失值是随机分布的,允许我们通过直接删除或插补来处理它们。

异常值

在对每个特征进行详细检查后,我们识别出多个异常值:

特征 异常值标准 异常值数量
CGAS-CGAS_Score 极高的值(例如 999) 1
Physical-Weight 无效的体重值(例如 0) 61
BIA 相关特征 (如 BIA-BIA_TBW, BIA-BIA_ICW) 与正常范围相比显著偏高或偏低的值 2
Physical-HeartRate 异常低的心率 (<30 bpm) 1
总体水百分比 (BIA-BIA_TBW/Physical-Weight) <20% 或 >100% 10

高度相关特征

相关性热力图显示,来自同一工具的特征通常高度相关(例如,生物电阻抗分析 (BIA) 特征的相关性 > 0.9)。

此外,一些特征(如 BMI)可以从其他特征 derived (BMI = FFMI + FMI)。减少这种冗余对于简化梯度提升模型至关重要。

与年龄的相关性

身体特征如身高和体重与年龄表现出强相关性。通过标准化这些特征(例如,身高/年龄,体重/年龄),我们可以提取更有意义的信息。基于年龄的回归似乎是插补缺失值的合理方法。

时间序列数据

时间序列数据具有很高的缺失率,对预测准确率影响最小,因此我们最终将其排除在解决方案之外。

数据预处理

处理异常值

我们删除了具有异常值的条目(在 EDA 部分解释),以避免模型倾斜。

特征工程与选择

我们使用特征工程来提取更有价值的见解并删除重复信息,并删除了缺失值过多、冗余或强相关的特征。最终选定的特征集包括:

编号 特征 解释
1 Basic_Demos-Age 参与者年龄
2 Basic_Demos-Sex 参与者性别
3 CGAS-CGAS_Score 儿童全球评估量表 (CGAS) 分数
4 Physical-Height_per_Age Physical-Height/Basic_Demos-Age
5 Physical-Weight_per_Age Physical-Weight/Basic_Demos-Age
6 FGC_Zone_Total FGC_CU_Zone+FGC_SRL_Zone+FGC_SRR_Zone+FGC_TL_Zone
7 BIA-BIA_Activity_Level_num 活动水平
8 BIA-BIA_BMR 基础代谢率
9 BIA-BIA_DEE 每日能量消耗
10 BIA-BIA_FFMI 去脂体重指数
11 BIA-BIA_FMI 脂肪质量指数
12 BIA-BIA_Frame_num 框架大小
13 BIA-BIA_SMM 骨骼肌质量
14 BIA-BIA_TBW 总体水体积
15 SDS-SDS_Total_T 睡眠障碍量表总分
16 PreInt_EduHx-computerinternet_hoursday 每天花费在电脑/互联网上的平均小时数
17 PAQ_Total 体力活动问卷分数,由 PAQ_A-PAQ_A_TotalPAQ_C-PAQ_C_Total 组合

插补

我们评估了两种插补方法:基于年龄的回归和结合 K 近邻 (KNN) 用于连续变量及随机森林用于分类变量的混合方法。这两种方法根据数据特征都是合理的。

在这个项目中,大多数特征与身体发育密切相关,使得基于年龄的线性回归成为插补缺失值的合适选择。这种方法确保插补值与观察到的数据分布保持一致。

混合方法利用了一个假设,即连续特征遵循局部相似性模式,KNN 可以有效捕捉,而分类特征与其他特征充分相关,允许随机森林提供准确的预测。

在测试了这两种方法后,选择了基于年龄的回归,因为它在此数据集上表现出更好的性能。

建模与预测

我们测试了三种方法:1) 岭回归;2) 多层感知机 (MLP);3) 梯度提升。梯度提升 consistently 优于其他方法,具有更强的二次加权 Kappa (QWK) 分数,所以我们坚持使用这种方法。我们使用 Optuna 优化超参数,并使用 5 折交叉验证验证结果。

关键收获

这次竞赛不仅是对技术技能的测试,也是处理现实世界数据挑战的练习。虽然对我们的结果感到自豪,但我们看到了改进的空间和未来项目的宝贵经验。

  • 特征工程和选择很重要:由于显著的数据噪声,仔细删除冗余或不相关的特征可以大大提高梯度提升模型的性能。
  • 数据不平衡也是一个限制:目标变量 (SII) 高度不平衡,约 60% 的值为 0,85% 小于 2。这种不平衡使得建立特征与目标变量之间的清晰关系变得复杂。
  • 仅凭身体数据可能不足:仅凭身体数据可能无法完全解释问题性互联网使用 (PIU)。例如,一些具有高 SII 分数的儿童显示出强烈的健身指标,这虽然出乎意料,但是合理的。包含 additional 数据,如行为模式,可能会提供更多见解。
  • 需要客观测量:在比赛期间,我们忍不住质疑使用亲子网络成瘾测试 (PCIAT) 结果作为 PIU 测量的可靠性。由于它基于家长报告的答案,它可能是主观的且潜在不准确。我们认为可能有可能开发一种更客观的方法来测量 PIU。例如,特征 PreInt_EduHx_computerinternet_hoursday 直接跟踪电脑使用时间,似乎是一个更可靠的指标。
同比赛其他方案