作者:Takoi
排名:第13名
发布时间:2023年6月29日
第13名解决方案
首先,我要感谢Kaggle社区分享优秀思路和精彩讨论。同时感谢主办方组织了这场有趣的竞赛任务。
摘要
- LightGBM与神经网络集成
- 交叉验证:嵌套交叉验证
- 训练数据:session_id前四位数字≤2200的数据
- 验证数据:session_id前四位数字≥2201的数据
- 在训练数据上采用5折交叉验证训练模型,使用全部5个模型的预测结果评估验证集
- 最终提交时使用5折交叉验证在整个数据集上训练模型
LightGBM模型
- 为level group 0-4和5-12分别训练一个模型,包含目标特征表示并训练单一模型
- 对level group 13-22,每个目标单独训练模型
- 主要特征:
- 每个session_id的类别数据计数
- 每个session_id的数值数据统计量
- 下一步行动的聚合特征
- 分数:
- CV:0.7032
- 公开分数:0.704
- 私有分数:0.701
神经网络模型
- 模型结构:Transformer + GRU
- 单独Transformer效果不佳
- 加入GRU后分数提升
- 使用较少特征训练
- 每个level group单独训练模型
- 分数:
- CV:0.7010
- 公开分数:0.700
- 私有分数:0.700
模型集成
- 集成方式:LightGBM × 0.66 + 神经网络 × 0.34
- 集成分数:
- CV:0.7053
- 公开分数:0.706
- 私有分数:0.702