返回列表

MAP Competition 13th Place Gold Medal Solution

673. MAP - Charting Student Math Misunderstandings | map-charting-student-math-misunderstandings

开始: 2025-07-10 结束: 2025-10-15 个性化学习 数据算法赛
MAP 竞赛第 13 名金牌解决方案

MAP 竞赛第 13 名金牌解决方案

作者: iws (tkyiws)
发布时间: 2025-10-16
竞赛排名: 第 13 名

感谢竞赛组织者、数据提供者以及所有贡献了宝贵讨论的参与者。

策略

两种方法 × 多个模型 × 集成

  • 分类方法:14B 模型 × 2
  • 列表式方法:72B 模型 × 2 + 32B 模型 × 2
  • 混合集成共 6 个模型
  • 所有 6 个模型使用不同的随机种子训练

使用了全部 36,696 个样本(无验证集分割)

模型得分

模型 任务 权重 私有分数 公共分数
Qwen3-14B-Base 分类 0.9 0.943 0.949
Qwen3-14B-Base 分类 0.9 0.944 0.948
Qwen3-32B 列表式 1.0 0.943 0.949
Qwen3-32B 列表式 1.0 0.943 0.948
Qwen2.5-72B-Instruct 列表式 1.0 0.945 0.947
Qwen2.5-72B-Instruct 列表式 1.0 0.945 0.949
集成 - - 0.947 0.952

方法

关键设计决策

竞赛使用固定的 15 个问题集,每个样本都标有类别(正确/无关/误区)和误区标签。我们做出了三个关键观察:

  1. 目标缩减:每个问题只有 4-6 个可能的目标(排除真/假后的 37 个总类别中)。两种方法都利用了这一约束。
  2. 正确/错误标签分离:真/假标签表示学生的回答是正确还是错误。由于竞赛使用固定问题,我们可以从训练数据中确定正确答案而无需预测。我们将真/假从预测目标中移除,并将其作为前缀附加到最终预测中。
  3. 输入增强:我们从训练数据中提取了每个问题的 4 个答案选项,并将其添加到所有输入提示中。

分类模型

  • 模型:Qwen3-14B-Base
  • 任务:使用序列分类(SequenceClassification)在所有 37 个类别上进行训练
  • 训练:QLoRA 4bit,2 个 epoch
  • 推理:4bit 量化 + LoRA 适配器,提取每个问题 4-6 个目标的分数

列表式模型

  • 模型:Qwen2.5-72B-Instruct (×2), Qwen3-32B (×2)
  • 任务:使用因果语言模型(CausalLM)将每个问题的 4-6 个目标作为选项呈现,生成选项编号
  • 训练:QLoRA 4bit,1 个 epoch,选项顺序随机打乱
  • 后处理:LoRA 合并 → (72B: intermediate_size 填充 29568→29696 以用于 vLLM 张量并行化) → 使用 gptqmodel 进行 GPTQ 4bit 量化
  • 推理:使用 vLLM 获取每个选项的对数概率(logprobs)

集成方法

将每个模型的分数转换为统一尺度:

  • 分类模型:L1 归一化概率
  • 列表式模型:Softmax 变换对数概率

使用加权平均值选择前 3 名。将正确/错误前缀添加到最终预测中。

资源

  • 训练:14B (RTX 5090, 2 小时), 32B (RTX 5090, 10 小时), 72B (H200, 4 小时)
  • 推理:Kaggle T4×2, 8 小时

讨论

数据特征:

  • 标签具有主观性且标注不一致:误区标签较为抽象,包含多个 distinct 概念,存在许多标注错误和边界案例

这些特征的后果:

  • 多模型集成效果显著
  • 合成数据生成和思维链(CoT)方法无效(合成数据用于模型特性评估,但与排行榜分数相关性弱)

关于模型选择:

  • 模型选择具有挑战性:公共分数显示出过于乐观的结果,几乎任何组合都产生相似的分数
  • 我们的实验揭示了几项指导我们决策的见解:
    1. 准确率从 8B→14B→32B 有所提高,但在 32B 之后趋于平稳,72B 未显示出额外增益
    2. 不同随机种子的分数变化约为 ±0.002
    3. 在合成数据评估中,列表式方法 consistently 优于分类模型
  • 因此,我们在每个配置中使用了 2 个模型以 account for 种子变化,并根据合成数据表现给予了列表式模型更高的权重
  • 这种方法被证明至关重要:仅依赖公共分数排名可能会让我们失去奖牌
  • 赛后分析揭示了额外的见解:Qwen3-32B 的表现不如 Qwen2.5-72B,但单独实验显示 Qwen2.5-32B 与 Qwen2.5-72B 相当,表明 Qwen3 不太适合此任务。此外,私有分数显示出的种子变化小于公共分数,表明具有不同架构的更多样化集成(而不是多个种子)可能更有益
同比赛其他方案