第16名方案
第16名方案
作者: poteman (Grandmaster), Ryan (Expert)
比赛: H&M Personalized Fashion Recommendations
感谢我的队友 Ryan @wj19971997,我们获得了第16名。
感谢 H&M 和 Kaggle。这是一场精彩的比赛。
框架

数据划分
我们将数据分为3组:
cg1(客户组1)是最近30天内有交易的用户;
cg2(客户组2)是最近30天内无交易,但在历史上有交易记录的用户。
cg3(客户组3)是历史上没有交易记录的用户。
- cg1 和 cg2:多路召回 + 排序。
- cg3:热门商品召回。
召回
- 热门商品召回
- 复购召回
- BinaryNet 召回
- ItemCF 召回
- UserCF 召回
- W2V 内容召回
- NLP 内容召回
- 图像内容召回
- 类别内容召回
每种召回方法会为每个用户召回100个商品,然后去重。
排序
特征工程
商品特征
groupby article_id agg cols 计算统计量
- cols: customer_id, price, sales_channel_id 等。
- op: 'min', 'max', 'mean', 'std', 'median', 'sum', 'nunique'
用户特征
groupby customer_id agg cols 计算统计量
- cols: price, article_id, sales_channel_id 等。
- op: 'min', 'max', 'mean', 'std', 'median', 'sum', 'nunique'
交互特征
- 用户-商品在不同时间窗口(1天、3天、1周、2周、1个月)内的购买次数。
- 用户上次购买该商品的时间差
其他特征
模型
- lightgbm ranker
- lightgbm binary
集成
参考 此链接