540. Learning Equality - Curriculum Recommendations | learning-equality-curriculum-recommendations
感谢 Kaggle 和 The Learning Agency Lab 举办了这场激动人心的比赛,也感谢各位 Kagglers 和我优秀的队友 @youjods。
我们的模型采用两阶段配置(检索器和重排序器)。我们使用了从 Hugging Face 下载的模型,并使用 sentence-transformers 库进行训练。
以下几点对分数的提升有显著贡献:
sentence-transformers/xlm-r-distilroberta-base-paraphrase-v1 作为骨干模型我们使用了 GroupKGold 策略,根据类别进行不同处理:
category=='source' 的主题全部用于训练。验证分数分别针对已知频道和未知频道进行计算。
我们参考了 @conjuring92 的讨论:Topic Context Matters in Supervised Pipeline。
主题: channel + language + level + title + description + context(title) + context(description) + children_title
内容: kind + language + title + description + text
我们对标题和描述进行了一定长度的截断。检索器和重排序器的截断长度不同(重排序器的截断长度更短)。
我们使用 sentence-transformers 库训练了来自 Hugging Face 的模型,并使用了 MultipleNegativesRankingLoss。我们尝试了各种骨干模型,以下条件产生了最佳的召回率分数。
Recall@100 分数结果如下:
在第二阶段,使用重排序器模型为每个主题提取前 100 个最近的内容。然后,我们使用 sentence-transformers 库配合 OnlineContrastiveLoss 对检索器模型进行微调。
我们最初使用简单的二分类进行训练,但 OnlineContrastiveLoss 显著提升了 F2 分数,结果如下: