第 9 名解决方案：汇聚众长

仅限测试时训练

作者: lllleeeo, mango
发布日期: 2025-10-24
竞赛排名: 第 9 名

首先，我们要感谢组织者举办了如此精彩的 LLM 竞赛。其次，本解决方案主要建立在五个优秀的公开 Notebook 之上。非常感谢作者们分享这些想法。链接见底部。

概述

解决方案包含三个主要部分：生成模型、分类模型和基于 Faiss 的检索。

这部分基于 @wasupandceacar 分享的生成式测试时训练方法。我们对该公开 Notebook 做了以下改进：

将 Llama 3.2 3B 替换为 Qwen3-4B-Instruct-2507，仅使用 5% 的测试数据，公共榜 (LB) 分数从 0.916 提升至 0.919
使用 Unsloth 优化测试时训练，将提交时间从 7.5 小时（双 GPU）减少到 2.5 小时（单 GPU），公共榜 (LB) 分数从 0.919 提升至 0.920
移除了 subreddit 信息，因为在测试集示例训练时它引入了纯噪声，将提交时间从 2.5 小时减少到 2.1 小时，公共榜 (LB) 分数从 0.920 提升至 0.922

替代训练数据的探索：

当我们尝试调整使用的测试数据时，发现生成模型对数据量极其敏感，这可能是由于重复示例和噪声数据造成的。为了避免对公共榜过拟合，我们探索了更稳定的方法（事实证明在私有榜公布后这些方法次优）。

由于原始训练数据构建无法确保所有示例都作为正文训练，我们使用了所有去重后的示例，并为每个示例随机匹配正/负样本以增加多样性。

将这些新训练的模型与原始模型集成后结果如下：

模型	运行时间 (小时)	公共榜 (LB)	私有榜 (PB)
Qwen3-4B-Instruct-2507	3.0	0.924	0.918
Llama 3.2 3B	2.5	0.923	0.916
Phi-3.5-Mini-Instruct	3.5	0.918	0.913

*集成这三个模型后，公共榜 (LB) 得分为 0.930（私有榜 PB 0.924），运行时间为 9 小时。

这部分建立在 Team U DONNO WHO 和 DLH 分享的 DeBERTa 分类方法之上。我们实施了几项优化：

模型架构与训练：

模型性能：

模型	运行时间 (小时)	公共榜 (LB)	私有榜 (PB)
DeBERTa-v3-base	0.5	0.909	0.902
E5-base	0.5	0.910	0.904
MPNet-base	0.5	0.906	0.900

*这三个模型的最终集成公共榜 (LB) 得分为 0.921（私有榜 PB 0.913），运行时间为 1.5 小时。

这部分基于 Aurora Rabbit 和 Ertuğrul Demir 分享的用于训练 BGE 模型的 triplet loss 方法。
我们的改进：

在推理阶段集成了单质心 (single centroid) 和 UMAP 聚类方法

*最终模型公共榜 (LB) 得分为 0.909（私有榜 PB 0.904），运行时间为 1.5 小时。

我们提交了两种不同的集成策略进行最终评估。

对于每个部分，模型首先在内部集成，然后在每个部分内进行排名归一化，最后使用加权平均组合。

基于公共榜 (LB) 性能，最终集成权重设置为 0.7 × 第一部分 + 0.25 × 第二部分 + 0.05 × 第三部分。

提交 1：

使用双 GPU (T4 x 2) 并行训练四个生成模型：Qwen3-4B-Instruct-2507, Llama 3.2 3B, Phi-3.5-Mini-Instruct 和 Qwen2.5-7B-Instruct
每个模型使用不同的随机种子
将这些生成模型与第二部分和第三部分的模型集成
运行时间：9 小时
公共榜 (LB): 0.933 | 私有榜 (PB): 0.927

提交 2：