11th Place Solution for the Child Mind Institute — Problematic Internet Use Competition

儿童心理研究所 — 问题性互联网使用竞赛第 11 名解决方案

作者: Hezhi Xie (团队领导), BOQI ZHAO, Chengkai Shi, Steven_Deng
发布日期: 2024-12-23
竞赛排名: 第 11 名 (金牌)

我们很兴奋能在首次 Kaggle 竞赛中获得金牌，并深深感谢 Kaggle 的每一个人分享的所有内容，这对我们的学习之旅贡献巨大。在这篇 write-up 中，我们很高兴分享我们的解决方案和关键收获。

背景

业务背景：https://www.kaggle.com/competitions/child-mind-institute-problematic-internet-use/overview
数据背景：https://www.kaggle.com/competitions/child-mind-institute-problematic-internet-use/data

方法概述

我们的模型基于这个 Notebook：https://www.kaggle.com/code/laiyunghwei/lb-0-493。我们使用了三个梯度提升模型——LightGBM、XGBoost 和 CatBoost——并使用等权重的投票回归器将它们结合起来。

提交详情

探索性数据分析 (EDA)

缺失值

缺失数据是一个重大挑战。几乎所有特征（除了人口统计特征）都包含缺失值，其中约 10 个特征的缺失率超过 70%。目标变量也有大约 30% 的缺失数据。

此外，来自同一工具的特征具有相似的缺失率，并且缺失值是随机分布的，允许我们通过直接删除或插补来处理它们。

异常值

在对每个特征进行详细检查后，我们识别出多个异常值：

特征	异常值标准	异常值数量
`CGAS-CGAS_Score`	极高的值（例如 999）	1
`Physical-Weight`	无效的体重值（例如 0）	61
BIA 相关特征 (如 `BIA-BIA_TBW`, `BIA-BIA_ICW`)	与正常范围相比显著偏高或偏低的值	2
`Physical-HeartRate`	异常低的心率 (<30 bpm)	1
总体水百分比 (`BIA-BIA_TBW`/`Physical-Weight`)	<20% 或 >100%	10

高度相关特征

相关性热力图显示，来自同一工具的特征通常高度相关（例如，生物电阻抗分析 (BIA) 特征的相关性 > 0.9）。

此外，一些特征（如 BMI）可以从其他特征 derived (BMI = FFMI + FMI)。减少这种冗余对于简化梯度提升模型至关重要。

与年龄的相关性

身体特征如身高和体重与年龄表现出强相关性。通过标准化这些特征（例如，身高/年龄，体重/年龄），我们可以提取更有意义的信息。基于年龄的回归似乎是插补缺失值的合理方法。

时间序列数据

时间序列数据具有很高的缺失率，对预测准确率影响最小，因此我们最终将其排除在解决方案之外。

数据预处理

处理异常值

我们删除了具有异常值的条目（在 EDA 部分解释），以避免模型倾斜。

特征工程与选择

我们使用特征工程来提取更有价值的见解并删除重复信息，并删除了缺失值过多、冗余或强相关的特征。最终选定的特征集包括：

编号	特征	解释
1	`Basic_Demos-Age`	参与者年龄
2	`Basic_Demos-Sex`	参与者性别
3	`CGAS-CGAS_Score`	儿童全球评估量表 (CGAS) 分数
4	`Physical-Height_per_Age`	`Physical-Height`/`Basic_Demos-Age`
5	`Physical-Weight_per_Age`	`Physical-Weight`/`Basic_Demos-Age`
6	`FGC_Zone_Total`	`FGC_CU_Zone`+`FGC_SRL_Zone`+`FGC_SRR_Zone`+`FGC_TL_Zone`
7	`BIA-BIA_Activity_Level_num`	活动水平
8	`BIA-BIA_BMR`	基础代谢率
9	`BIA-BIA_DEE`	每日能量消耗
10	`BIA-BIA_FFMI`	去脂体重指数
11	`BIA-BIA_FMI`	脂肪质量指数
12	`BIA-BIA_Frame_num`	框架大小
13	`BIA-BIA_SMM`	骨骼肌质量
14	`BIA-BIA_TBW`	总体水体积
15	`SDS-SDS_Total_T`	睡眠障碍量表总分
16	`PreInt_EduHx-computerinternet_hoursday`	每天花费在电脑/互联网上的平均小时数
17	`PAQ_Total`	体力活动问卷分数，由 `PAQ_A-PAQ_A_Total` 和 `PAQ_C-PAQ_C_Total` 组合

插补

我们评估了两种插补方法：基于年龄的回归和结合 K 近邻 (KNN) 用于连续变量及随机森林用于分类变量的混合方法。这两种方法根据数据特征都是合理的。

在这个项目中，大多数特征与身体发育密切相关，使得基于年龄的线性回归成为插补缺失值的合适选择。这种方法确保插补值与观察到的数据分布保持一致。

混合方法利用了一个假设，即连续特征遵循局部相似性模式，KNN 可以有效捕捉，而分类特征与其他特征充分相关，允许随机森林提供准确的预测。

在测试了这两种方法后，选择了基于年龄的回归，因为它在此数据集上表现出更好的性能。

建模与预测

我们测试了三种方法：1) 岭回归；2) 多层感知机 (MLP)；3) 梯度提升。梯度提升 consistently 优于其他方法，具有更强的二次加权 Kappa (QWK) 分数，所以我们坚持使用这种方法。我们使用 Optuna 优化超参数，并使用 5 折交叉验证验证结果。

关键收获

这次竞赛不仅是对技术技能的测试，也是处理现实世界数据挑战的练习。虽然对我们的结果感到自豪，但我们看到了改进的空间和未来项目的宝贵经验。

特征工程和选择很重要：由于显著的数据噪声，仔细删除冗余或不相关的特征可以大大提高梯度提升模型的性能。
数据不平衡也是一个限制：目标变量 (SII) 高度不平衡，约 60% 的值为 0，85% 小于 2。这种不平衡使得建立特征与目标变量之间的清晰关系变得复杂。
仅凭身体数据可能不足：仅凭身体数据可能无法完全解释问题性互联网使用 (PIU)。例如，一些具有高 SII 分数的儿童显示出强烈的健身指标，这虽然出乎意料，但是合理的。包含 additional 数据，如行为模式，可能会提供更多见解。
需要客观测量：在比赛期间，我们忍不住质疑使用亲子网络成瘾测试 (PCIAT) 结果作为 PIU 测量的可靠性。由于它基于家长报告的答案，它可能是主观的且潜在不准确。我们认为可能有可能开发一种更客观的方法来测量 PIU。例如，特征 PreInt_EduHx_computerinternet_hoursday 直接跟踪电脑使用时间，似乎是一个更可靠的指标。

来源

Kaggle Notebook 参考 https://www.kaggle.com/code/laiyunghwei/lb-0-493 科学直接文章 https://www.sciencedirect.com/science/article/pii/S1386505624001047