3rd Place Solution (with Magic Boost)

第三名解决方案（带有魔法加成）

作者： Yi-Chia Chen (threerabbits)
发布日期： 2024-12-13
竞赛排名： 第 3 名

首先，我想感谢组织者举办这次比赛，感谢 Kaggle 社区所有的讨论和分享的 Notebook，帮助我学到了这么多。

我的解决方案

采用两阶段方法：

使用了 Qwen-14B Embedder（来自 @anhvth226）与使用 FlagEmbedding 训练的 Qwen-14B embedder 进行集成。
为每个问题检索了 35 个最相关的误解 (misconceptions)。
使用了公开分享的 Retriever，并尝试了自己训练的 FlagEmbedding Retriever。
老实说，我自己训练的 Retriever 相当糟糕，移除它实际上提高了分数（哈哈）。

此时的分数：

接下来是最有趣的部分！

这一切始于我发现误解表中有超过 900 个未见过的误解 (unseen misconceptions)，它们从未出现在训练数据中。此外，根据 @zhudong1949 和 @eugenkrylov 的发现（查看此处：讨论链接），测试集有许多未见过的主题，只有约 685 个问题。

所以我想：这些未见过的误解一定构成了测试集的很大一部分！

在比赛的倒数第二天（是的，我真的敢在这个时候用两次提交来做实验 XD），我做了这个排行榜探测 (LB probing)：

看到这些结果，我大胆猜测测试数据中见过与未见过的比例大致为 1:3。

所以我实施了一个简单的后处理：

这个小魔法技巧让分数飙升 😮：

在最终版本中，我还随机打乱了输入到 reranker 的误解顺序，这带来了额外的微小提升：

推理代码可以在这里找到：

查看 Notebook 代码 https://www.kaggle.com/code/threerabbits/eedi-11-21-myq14b-q32b-rerank-mod-novel-local-suf