返回列表

13th place solution

562. Predict Student Performance from Game Play | predict-student-performance-from-game-play

开始: 2023-02-06 结束: 2023-06-28 学习效果预测 数据算法赛
作者:Takoi
排名:第13名
发布时间:2023年6月29日

第13名解决方案

首先,我要感谢Kaggle社区分享优秀思路和精彩讨论。同时感谢主办方组织了这场有趣的竞赛任务。

摘要

  • LightGBM与神经网络集成
  • 交叉验证:嵌套交叉验证
    • 训练数据:session_id前四位数字≤2200的数据
    • 验证数据:session_id前四位数字≥2201的数据
    • 在训练数据上采用5折交叉验证训练模型,使用全部5个模型的预测结果评估验证集
    • 最终提交时使用5折交叉验证在整个数据集上训练模型

LightGBM模型

  • 为level group 0-4和5-12分别训练一个模型,包含目标特征表示并训练单一模型
  • 对level group 13-22,每个目标单独训练模型
  • 主要特征:
    • 每个session_id的类别数据计数
    • 每个session_id的数值数据统计量
    • 下一步行动的聚合特征
  • 分数:
    • CV:0.7032
    • 公开分数:0.704
    • 私有分数:0.701

神经网络模型

  • 模型结构:Transformer + GRU
    • 单独Transformer效果不佳
    • 加入GRU后分数提升
  • 使用较少特征训练
  • 每个level group单独训练模型
  • 分数:
    • CV:0.7010
    • 公开分数:0.700
    • 私有分数:0.700

模型集成

  • 集成方式:LightGBM × 0.66 + 神经网络 × 0.34
  • 集成分数:
    • CV:0.7053
    • 公开分数:0.706
    • 私有分数:0.702
同比赛其他方案