第6名方案

摘要

检索器和重排序器
基于 Transformer 的检索器
基于 GBDT 的重排序器
推理代码 https://www.kaggle.com/code/iiyamaiiyama/llecr-ens8910-125128-149154-155157

模型结构图1

模型结构图2

交叉验证策略

基于 topic-id 的简单 5 折随机划分。
对于第一阶段，我使用了所有数据，包括 "source"。
对于第二阶段，我使用了与第一阶段相同的折划分，并创建了包含和不包含 "source" 的多个模型以确保多样性。
CV（交叉验证）和 LB（排行榜）分数相关性很好。

我训练了一个基于 channel GroupKFold 的模型，并将其作为最终提交之一，但简单的随机 kfold 在 CV 和 LB 上的结果略好一些。

训练文本的创建方式如下：

模型	最大正样本得分@50	CV F2@第一阶段	CV F2@第二阶段	公共 LB@第二阶段
sentence-transformers/LaBSE	0.8887	0.5462	0.6727	0.676
sentence-transformers/paraphrase-multilingual-mpnet-base-v2	0.8891	0.5429	0.6698	0.678
facebook/xlm-v-base	0.8869	0.532	0.669	0.671
xlm-roberta-base	0.8832	0.5388	0.6666	0.676
上述四个模型的朴素集成	0.9336	-	0.6916	(未提交此项)
我发布的提交	-	-	0.7152	0.707

每个主题及其相关内容被归为一类。
模型使用 ArcFace 进行训练。每个模型生成 768 维的嵌入向量。
训练了 30 或 60 个 epoch，每折大约花费 5 小时。
边距在训练期间从 0.2 逐渐增加到 0.6。
以下模型用于最终提交：