第6名方案(单模型 LB 0.603)
第6名方案(单模型 LB 0.603)
作者:THLUO (Grandmaster) | 比赛排名:第6名
感谢 Kaggle 和 OTTO 举办了这场精彩的比赛。这是我第一次获得单人金牌,我感到非常兴奋。
这是我的整体模型框架。
召回
我包含了三种召回策略:
- CHRIS DEOTTE 的前 150 个共现矩阵 链接
- 前 100 个点击到点击的双向 i2i 相似度,带有位置、时间、会话、aid 权重
- 前 100 个点击到加购的双向 i2i 相似度,带有位置、时间、会话、aid 权重
特征
会话特征:
- 用户点击/下单/加购的次数和频率
- 用户最后点击/下单/加购的 aid 和小时
- 用户最后的行为类型
商品特征:
- aid 点击/下单/加购次数
- aid 点击/下单/加购比率
- aid 点击/下单/加购时间
- aid 行为平均类型
会话-商品特征:
- 用户点击/下单/加购该 aid 的次数
- 用户点击/下单/加购该 aid 的时间
- 用户行为 aid 平均类型和最后行为类型
- abs(用户点击/加购/下单该 aid 的热度/时间 - aid 点击/加购/下单的热度/时间)
相似度特征:
- 共现矩阵排名
- 点击/加购/下单 到 点击/加购/下单 的 2 点击/加购/下单 i2i/i2i2i 相似度,带有位置、时间权重。
- 点击/加购/下单 到 点击/加购/下单 的 2 点击/加购/下单 i2i/i2i2i 平均/最大/最小/标准差/最后 相似度
- 点击/加购/下单 到 点击/加购/下单 的 aid 对相似度,带有位置、时间权重。
- 点击/加购/下单 到 点击/加购/下单 的 aid 对 平均/最大/最小/标准差/最后 相似度
- w2v 嵌入相似度
训练与验证
在验证阶段,我使用了 Radek 的 CV 策略。
对于在线预测,使用 train_v1 + train_v2 + valid 作为训练数据。
模型
我使用了 LightGBM 二分类器,学习率:0.02,迭代次数:5500 轮。
本地 CV 和 LB 分数
最佳单模型本地 CV 各部分得分:
- 订单 recall@20 为 0.6715
- 加购 recall@20 为 0.4433
- 点击 recall@20 为 0.5561
我的本地 CV 计算公式为:0.6715 * 0.6 + 0.4433 * 0.3 + 0.5561 * 0.1 = 0.5915
LB(公开排行榜)分数为 0.60335。
集成
我没有运行第二个模型,我是使用该模型之前提交的版本进行概率融合。这让我得到了最终分数 0.60341。