返回列表

6th place solution

540. Learning Equality - Curriculum Recommendations | learning-equality-curriculum-recommendations

开始: 2022-12-15 结束: 2023-03-14 个性化学习 数据算法赛
第6名方案

摘要

模型结构图1

模型结构图2

交叉验证策略

基于 topic-id 的简单 5 折随机划分。
对于第一阶段,我使用了所有数据,包括 "source"。
对于第二阶段,我使用了与第一阶段相同的折划分,并创建了包含和不包含 "source" 的多个模型以确保多样性。
CV(交叉验证)和 LB(排行榜)分数相关性很好。

我训练了一个基于 channel GroupKFold 的模型,并将其作为最终提交之一,但简单的随机 kfold 在 CV 和 LB 上的结果略好一些。

检索器 (第一阶段)

文本

训练文本的创建方式如下:

  • 主题
    递归遍历到根节点并添加标题。最后,添加主题描述。例如:(根标题 + 父节点1标题 + ... + 主题标题 + 主题描述)。
  • 内容
    标题和描述被连接在一起。"text" 列被丢弃了。
模型 最大正样本得分@50 CV F2@第一阶段 CV F2@第二阶段 公共 LB@第二阶段
sentence-transformers/LaBSE 0.8887 0.5462 0.6727 0.676
sentence-transformers/paraphrase-multilingual-mpnet-base-v2 0.8891 0.5429 0.6698 0.678
facebook/xlm-v-base 0.8869 0.532 0.669 0.671
xlm-roberta-base 0.8832 0.5388 0.6666 0.676
上述四个模型的朴素集成 0.9336 - 0.6916 (未提交此项)
我发布的提交 - - 0.7152 0.707

模型

每个主题及其相关内容被归为一类。
模型使用 ArcFace 进行训练。每个模型生成 768 维的嵌入向量。
训练了 30 或 60 个 epoch,每折大约花费 5 小时。
边距在训练期间从 0.2 逐渐增加到 0.6。
以下模型用于最终提交: