1st place solution | 优胜方案

第一名解决方案

作者：mrkmakr
发布时间：2023-02-06

非常感谢主办方组织了这场有趣的比赛。
问题设置与我实际的工作非常接近，我很高兴学到了很多东西。

候选集生成

候选者的平均数量约为 1200 个。

单个 LGBMRanker : LB 0.604
9 个具有不同超参数的 LGBMRankers 集成 : LB 0.605
我通过对排序器的预测分数取平均值来进行集成。

会话 * aid (交互特征)
- 候选生成阶段通过共现矩阵得到的排名
- 候选生成阶段通过 NN 得到的余弦相似度
- 会话中的 aid 信息（何时出现、是什么类型等）
aid
- aids 的流行度
  - 排名后效果很好
  - 通过多个时间窗口计算
- 类型比例
会话
- 长度
- aid 重复率
- 最后一个 aid 和倒数第二个 aid 之间的时间戳间隔

创建了大约 200 个特征
通过 lgbm gain importance 为每个目标选择大约 100 个特征，以减少内存使用

点击 : 5%
加购 : 25%
订单 : 40%
我设置这些值是为了让我的机器能够处理训练数据（每个数据大小约为 35GB）。

我遵循了 radek 的设置。 https://www.kaggle.com/competitions/otto-recommender-system/discussion/364991
我可以得到本地验证和 LB 之间几乎完美的相关性。
为了快速迭代改进，我通过使用 5% 的数据进行训练并使用其他 10% 的数据进行评估来进行实验。

基于本地验证的消融实验。
同时涉及候选生成和重排序特征的信息已从两者中移除。

条件	clicks_recall@20	carts_recall@20	orders_recall@20	weighted_recall@20