CCF BDCI 2020 滴滴路况预测 · 冠军方案

采样策略 + 特征工程 + LightGBM + 子图GCN/LSTM/NFM深度融合

团队介绍

成员组成：otto data lab（刘世欢、陈欣）、周阳（重庆邮电大学研二）、李孟禹（天池科学家）

历史荣誉：团队在多个数据挖掘竞赛中屡获佳绩，包括：

🏅 Kaggle-IEEE-CIS Fraud Detection 金牌

🏅 KDD Cup 2020 Debiasing Top6

🏅 2020数字中国创新大赛—智慧海洋建设亚军

🏅 “合肥高新杯”心电人机智能大赛亚军

🏅 首届“马栏山杯”国际音视频算法大赛视频推荐赛道季军

🏅 第二届阿里巴巴大数据智能云上编程大赛-智联招聘人岗智能匹配 Top4

🏅 2020年中国高校计算机大赛-华为云大数据挑战赛冠军

🏅 2019年中国高校计算机大赛-大数据挑战赛 Top6

🏅 2019年CCF BDCI 金融信息负面及主体判定赛题冠军

🏅 2019年DigSci科学数据挖掘大赛冠军

🏅 2019年CCF BDCI乘用车细分市场销量预测赛题季军

🏅 2020年科大讯飞事件抽取挑战赛 Top5

🏅 2020年科大讯飞农业问答数据处理挑战赛 Top5

本次赛题提供了一个月的基于当前link的历史同期时序特征和当前历史时序特征，预测未来1-30时间片的拥堵情况。

测试集分布问题：测试集分布与训练集非常不一致，主要表现：测试集预测时间集中在凌晨，历史同期序列和当前历史序列缺失值多；预测gap（需要预测的时间片-当前时间片）集中在20+，预测时间片与当前时间片差距大，难度更高。因此，若使用传统特征工程建模，需要对训练集进行针对性采样。
拓扑序列无法利用时序特征：训练集和测试集只包含1万多的link时序特征，但整个拓扑图有60多万节点，无法利用拓扑时序特征，只能尽可能捕捉拓扑静态特征。

采样策略：为了匹配测试集分布，采用多级采样：

从训练集（20190706-20190730）中选取 future_slice_id 在 10~40 之间的样本，并从30号 future_slice_id 超过40的样本中采样5万条，得到原始训练集A。
根据测试集的 curr_state 分布比例对A进行采样，得到B。
根据测试集的 future_slice_id 与 current_slice_id 的时间差分布比例对B采样，得到C，并按测试集分布去重，最终得到与测试集分布接近的训练集D。

特征工程：

训练：LightGBM 5折交叉验证。
A榜分数：0.513

路况时空预测中拓扑特征至关重要，但全图节点过多，因此采用子图构建，通过GCN捕获空间特征；历史同期和当前时序通过LSTM捕获；类别特征通过NFM提取。模型分为三部分：

训练数据：7-1 至 7-29 所有数据
验证数据：7-30
损失函数：加权交叉熵（权重 0.1:0.3:0.6，拥堵越严重权重越大，与线上评价指标类似）
A榜单模分数：0.520

线性加权：final = nn × 0.7 + lgb × 0.3