返回列表

31st Place Solution

540. Learning Equality - Curriculum Recommendations | learning-equality-curriculum-recommendations

开始: 2022-12-15 结束: 2023-03-14 个性化学习 数据算法赛
第31名方案

第31名方案

作者: Anil Ozturk
比赛排名: 第31名

首先,非常感谢组织团队举办这次比赛!我才刚刚开始专注于NLP领域,这次比赛对我来说非常有教育意义,它也让我获得了我的第一枚单人银牌😀。比赛包含了推荐系统问题,让我有机会练习文本嵌入。但在比赛后期,我的创造力达到了极限,尝试了一些不必要的、过度的东西。我将尝试简要总结我的解决方案。您可以在我的GitHub查看完整源代码。您也可以在这里查看我提交的推理代码。

方案总结

架构图

我使用了sentence-transformers库和来自HuggingFace的模型。我尝试实现这里分享的架构。

流程包括:

将数据划分为训练集/验证集

我在论坛上看到了很多不同的方法。我也想在我的方法中利用语言分布的不平衡性。我将所有来自 source 的数据设为 train。对于其余数据,我使用了:

  • 交叉验证方案: 分组分层 K-Fold (Grouped Stratified K-Fold)
  • 折数: 5折(仅使用了第一折)
  • 分组依据: 主题 ID (Topic ID)
  • 分层标签: 语言

文本处理

  • 创建了主题树
  • languagecontent kind 的每个值创建了特殊标记。
  • topic titletopic treetopic descriptioncontent titlecontent descriptioncontent text 创建了标识符分隔符。

我最终输入模型的数据示例如下:

  • Topic: [<[language_en]>] [<[topic_title]>] videos [<[topic_tree]>] maths g3 to g10 > maths > g6 > 17. geometrical constructions > perpendicular and perpendicular bisector > videos [<[topic_desc]>] nan
  • Content: [<[language_en]>] [<[kind_exercise]>] [<[cntnt_title]>] level 3: identify elements of simple machine(axle,w
同比赛其他方案