540. Learning Equality - Curriculum Recommendations | learning-equality-curriculum-recommendations
感谢 Kaggle 和本次比赛的主办方,特别感谢 Jamie Alexandre 在讨论区对所有问题的有益评论以及他出色的数据探索笔记本。尤其是遍历主题树的代码在开始阶段对我帮助很大。
我在圣诞假期期间在这个比赛上花了不少时间,然后休息了一个多月。所以最后的冲刺非常紧张,同时提交排行榜和效率奖的感觉就像是在参加两个不同的比赛,而只剩下一周的时间,提交次数显得太少了。
我的解决方案基于简单的单阶段方法,为主题和内容创建嵌入,并计算检索任务的余弦相似度,没有任何进一步的后处理或第二阶段重排序。我将描述实现这样一个相对简单的模型获得高分的所有拼图碎片。
基于最小化不同折叠之间内容关系重叠的10折交叉验证 (10 Fold CV) 划分。在这次比赛中,我们必须将主题划分为折叠,所有主题都可以有多个附加内容。总的来说,这是一个 n x m 的 主题 x 内容 关系,很难创建与排行榜完美对齐的划分。
在创建 CV 划分期间,我试图通过创建 10 个桶并将主题添加到桶中来最小化不同折叠中具有相同内容的重叠,其中该主题的所有附加内容在不同桶中具有相同附加内容的重叠最少。至少对于我 10 折中的第 0 折,与公共排行榜的对齐非常好。而我的第 2 折似乎更接近私人排行榜。我只使用了第 0、1 和 2 折进行离线验证,结果始终与排行榜相关,所以我不在乎它们是否与分数完美对齐。
这里有一个仅训练了 32 个 Epoch 的例子,第 0 折与公共 LB 几乎完美对齐。这里的 Selected 是指该折叠中所有主题每种语言的平均选择内容计数,并显示了该单一模型的所有语言的 F2、Precision 和 Recall。
-------------------------[Model: sentence-transformers/LaBSE]--------------------------
---------------------------------------[Epoch: 32]-------------------------------------
Epoch: 32, Train Loss = 1.064, Lr = 0.000050
----------------------------------[margin: th 0.160]-----------------------------------
Calculate Scores
en Score: 0.65911 - Precision: 0.59954 - Recall: 0.739 (2806x65939) - selected: 7
es Score: 0.71289 - Precision: 0.61102 - Recall: 0.838 (1177x30844) - selected: 6
pt Score: 0.78237 - Precision: 0.69215 - Recall: 0.862 (343x10435) - selected: 7
ar Score: 0.51809 - Precision: 0.46233 - Recall: 0.663 (318x7418) - selected: 7
fr Score: 0.59613 - Precision: 0.59448 - Recall: 0.650 (304x10682) - selected: 9
bg Score: 0.68063 - Precision: 0.60765 - Recall: 0.751 (242x6050) - selected: 8
bn Score: 0.15228 - Precision: 0.09667 - Recall: 0.211 (237x2513) - selected: 9
sw Score: 0.69321 - Precision: 0.64327 - Recall: 0.763 (209x1447) - selected: 6
gu Score: 0.76149 - Precision: 0.66632 - Recall: 0.834 (181x3677) - selected: 6
hi Score: 0.63803 - Precision: 0.58325 - Recall: 0.744 (138x4042) - selected: 9
it Score: 0.87791 - Precision: 0.85495 - Recall: 0.906 (73x1300) - selected: 4
zh Score: 0.63350 - Precision: 0.54224 - Recall: 0.740 (68x3849) - selected: 10
mr Score: 0.69542 - Precision: 0.57128 - Recall: 0.898 (24x999) - selected: 12
fil