MAP Competition 13th Place Gold Medal Solution

MAP 竞赛第 13 名金牌解决方案

作者： iws (tkyiws)
发布时间： 2025-10-16
竞赛排名： 第 13 名

感谢竞赛组织者、数据提供者以及所有贡献了宝贵讨论的参与者。

策略

两种方法 × 多个模型 × 集成

使用了全部 36,696 个样本（无验证集分割）

竞赛使用固定的 15 个问题集，每个样本都标有类别（正确/无关/误区）和误区标签。我们做出了三个关键观察：

目标缩减：每个问题只有 4-6 个可能的目标（排除真/假后的 37 个总类别中）。两种方法都利用了这一约束。
正确/错误标签分离：真/假标签表示学生的回答是正确还是错误。由于竞赛使用固定问题，我们可以从训练数据中确定正确答案而无需预测。我们将真/假从预测目标中移除，并将其作为前缀附加到最终预测中。
输入增强：我们从训练数据中提取了每个问题的 4 个答案选项，并将其添加到所有输入提示中。

模型：Qwen2.5-72B-Instruct (×2), Qwen3-32B (×2)
任务：使用因果语言模型（CausalLM）将每个问题的 4-6 个目标作为选项呈现，生成选项编号
训练：QLoRA 4bit，1 个 epoch，选项顺序随机打乱
后处理：LoRA 合并 → (72B: intermediate_size 填充 29568→29696 以用于 vLLM 张量并行化) → 使用 gptqmodel 进行 GPTQ 4bit 量化
推理：使用 vLLM 获取每个选项的对数概率（logprobs）

将每个模型的分数转换为统一尺度：

使用加权平均值选择前 3 名。将正确/错误前缀添加到最终预测中。

数据特征：

这些特征的后果：

关于模型选择：

模型选择具有挑战性：公共分数显示出过于乐观的结果，几乎任何组合都产生相似的分数
我们的实验揭示了几项指导我们决策的见解：
1. 准确率从 8B→14B→32B 有所提高，但在 32B 之后趋于平稳，72B 未显示出额外增益
2. 不同随机种子的分数变化约为 ±0.002
3. 在合成数据评估中，列表式方法 consistently 优于分类模型
因此，我们在每个配置中使用了 2 个模型以 account for 种子变化，并根据合成数据表现给予了列表式模型更高的权重
这种方法被证明至关重要：仅依赖公共分数排名可能会让我们失去奖牌
赛后分析揭示了额外的见解：Qwen3-32B 的表现不如 Qwen2.5-72B，但单独实验显示 Qwen2.5-32B 与 Qwen2.5-72B 相当，表明 Qwen3 不太适合此任务。此外，私有分数显示出的种子变化小于公共分数，表明具有不同架构的更多样化集成（而不是多个种子）可能更有益