487. H&M Personalized Fashion Recommendations | h-and-m-personalized-fashion-recommendations
首先,感谢 Kaggle 官方工作人员和 H&M 团队组织了这场有趣的比赛。作为一名新的 Kaggler(但也是一名老推荐系统从业者),我非常享受这次比赛,并且非常高兴能获得这个名次。同时,感谢所有的竞争对手和社区,我从大家那里学到了非常多的东西,这对我来说比 8000 美元的奖金收获更大🤓。最后,我必须感谢新冠疫情让我在家隔离了两个月😂,这迫使我在业余时间专注于比赛,因为没有外出活动,尤其是在五一假期期间。
由于我的流程与其他人非常相似(候选生成 + 排序),而且我注意到我的解决方案大部分(无论是召回方法还是排序特征/模型)已经在其他人的帖子中被使用和描述过,我在这里只简要介绍一下我的案例中不同且有用的部分。(以下 LB 分数均为单模型 Private 分数。)
strategy_name 召回,以及该文章在 strategy_name 下的排名(因为我已经根据某种指标对每个召回策略下的候选项进行了排序,排名数字可以反映相关性)。这些特征,加上每个用户的候选项数量从几十个扩展到几百个,将我的 LB 分数从 0.02855 提升到了 0.03262,这改变了奖牌的颜色,从银牌变成了接近金牌。此外,如果我只增加召回数量而不添加召回特征,CV 分数会非常差。欢迎提出任何问题。感谢阅读!
-----------------------更新 2022.05.15------------------------------
30*len(pos_samples) 的负样本strategy_name 召回strategy_name 下的排名每个模型的指标非常相似。最终版本是 16 个模型的平均得分,这些模型使用不同的超参数(学习率、max_depth 甚至随机种子)