633. Child Mind Institute — Problematic Internet Use | child-mind-institute-problematic-internet-use
我们很兴奋能在首次 Kaggle 竞赛中获得金牌,并深深感谢 Kaggle 的每一个人分享的所有内容,这对我们的学习之旅贡献巨大。在这篇 write-up 中,我们很高兴分享我们的解决方案和关键收获。
我们的模型基于这个 Notebook:https://www.kaggle.com/code/laiyunghwei/lb-0-493。我们使用了三个梯度提升模型——LightGBM、XGBoost 和 CatBoost——并使用等权重的投票回归器将它们结合起来。
缺失数据是一个重大挑战。几乎所有特征(除了人口统计特征)都包含缺失值,其中约 10 个特征的缺失率超过 70%。目标变量也有大约 30% 的缺失数据。
此外,来自同一工具的特征具有相似的缺失率,并且缺失值是随机分布的,允许我们通过直接删除或插补来处理它们。
在对每个特征进行详细检查后,我们识别出多个异常值:
| 特征 | 异常值标准 | 异常值数量 |
|---|---|---|
CGAS-CGAS_Score |
极高的值(例如 999) | 1 |
Physical-Weight |
无效的体重值(例如 0) | 61 |
BIA 相关特征 (如 BIA-BIA_TBW, BIA-BIA_ICW) |
与正常范围相比显著偏高或偏低的值 | 2 |
Physical-HeartRate |
异常低的心率 (<30 bpm) | 1 |
总体水百分比 (BIA-BIA_TBW/Physical-Weight) |
<20% 或 >100% | 10 |
相关性热力图显示,来自同一工具的特征通常高度相关(例如,生物电阻抗分析 (BIA) 特征的相关性 > 0.9)。
此外,一些特征(如 BMI)可以从其他特征 derived (BMI = FFMI + FMI)。减少这种冗余对于简化梯度提升模型至关重要。
身体特征如身高和体重与年龄表现出强相关性。通过标准化这些特征(例如,身高/年龄,体重/年龄),我们可以提取更有意义的信息。基于年龄的回归似乎是插补缺失值的合理方法。
时间序列数据具有很高的缺失率,对预测准确率影响最小,因此我们最终将其排除在解决方案之外。
我们删除了具有异常值的条目(在 EDA 部分解释),以避免模型倾斜。
我们使用特征工程来提取更有价值的见解并删除重复信息,并删除了缺失值过多、冗余或强相关的特征。最终选定的特征集包括:
| 编号 | 特征 | 解释 |
|---|---|---|
| 1 | Basic_Demos-Age |
参与者年龄 |
| 2 | Basic_Demos-Sex |
参与者性别 |
| 3 | CGAS-CGAS_Score |
儿童全球评估量表 (CGAS) 分数 |
| 4 | Physical-Height_per_Age |
Physical-Height/Basic_Demos-Age |
| 5 | Physical-Weight_per_Age |
Physical-Weight/Basic_Demos-Age |
| 6 | FGC_Zone_Total |
FGC_CU_Zone+FGC_SRL_Zone+FGC_SRR_Zone+FGC_TL_Zone |
| 7 | BIA-BIA_Activity_Level_num |
活动水平 |
| 8 | BIA-BIA_BMR |
基础代谢率 |
| 9 | BIA-BIA_DEE |
每日能量消耗 |
| 10 | BIA-BIA_FFMI |
去脂体重指数 |
| 11 | BIA-BIA_FMI |
脂肪质量指数 |
| 12 | BIA-BIA_Frame_num |
框架大小 |
| 13 | BIA-BIA_SMM |
骨骼肌质量 |
| 14 | BIA-BIA_TBW |
总体水体积 |
| 15 | SDS-SDS_Total_T |
睡眠障碍量表总分 |
| 16 | PreInt_EduHx-computerinternet_hoursday |
每天花费在电脑/互联网上的平均小时数 |
| 17 | PAQ_Total |
体力活动问卷分数,由 PAQ_A-PAQ_A_Total 和 PAQ_C-PAQ_C_Total 组合 |
我们评估了两种插补方法:基于年龄的回归和结合 K 近邻 (KNN) 用于连续变量及随机森林用于分类变量的混合方法。这两种方法根据数据特征都是合理的。
在这个项目中,大多数特征与身体发育密切相关,使得基于年龄的线性回归成为插补缺失值的合适选择。这种方法确保插补值与观察到的数据分布保持一致。
混合方法利用了一个假设,即连续特征遵循局部相似性模式,KNN 可以有效捕捉,而分类特征与其他特征充分相关,允许随机森林提供准确的预测。
在测试了这两种方法后,选择了基于年龄的回归,因为它在此数据集上表现出更好的性能。
我们测试了三种方法:1) 岭回归;2) 多层感知机 (MLP);3) 梯度提升。梯度提升 consistently 优于其他方法,具有更强的二次加权 Kappa (QWK) 分数,所以我们坚持使用这种方法。我们使用 Optuna 优化超参数,并使用 5 折交叉验证验证结果。
这次竞赛不仅是对技术技能的测试,也是处理现实世界数据挑战的练习。虽然对我们的结果感到自豪,但我们看到了改进的空间和未来项目的宝贵经验。
PreInt_EduHx_computerinternet_hoursday 直接跟踪电脑使用时间,似乎是一个更可靠的指标。