34th Place Solution

第 34 名解决方案

作者: Chengwei Yan (队友: @guanyiming, @jiuxinfeng)

发布时间: 2025-03-16

竞赛排名: 34

首先，我要衷心感谢本次竞赛的组织者以及所有分享宝贵想法和见解的参与者。感谢队友 @guanyiming 和 @jiuxinfeng。参加这次活动是一次非常丰富的经历，让我学到了很多，并加深了对模型训练和优化前沿技术的理解。这既具有教育意义又令人鼓舞。

模型训练

基座模型选择

我选择了 gemma2-9b-it-fp16 作为基座模型。该模型在之前的竞赛中表现出了强大的性能。

使用 QLoRA 进行监督微调

对于监督微调，我使用了 QLoRA，超参数如下：

学习率：2e-4
每设备训练批次大小：2
梯度累积步数：4
最大 token 长度：3074（对于超过此长度的序列，保留响应的中间部分，其余部分被截断）

多阶段训练流程

阶段 1：初始微调

在第一阶段，我使用 lmsys-33k-deduplicated 数据集以及来自 lmsys 的额外数据对基座模型进行了微调。这产生了 权重 1，作为后续阶段的起点。

阶段 2：领域特定微调

基于 权重 1，我使用 WSDM 竞赛数据集 进一步微调了模型，得到 权重 2。此阶段旨在使模型适应竞赛的特定领域。

阶段 3：伪标签

在第三阶段，我使用 权重 2 在两个额外数据集上生成伪标签：

本讨论中提供的数据集：WSDM 多语言聊天机器人竞技场讨论
来自 Hugging Face 的 mlabonne/orpo-dpo-mix-40k 数据集：ORPO-DPO-Mix-40k

这些伪标签数据集随后被用于增强模型性能。

阶段 4：使用软标签分布优化重新训练

使用阶段 3 中的伪标签数据，我将其与 lmsys-33k-deduplicated 和 lmsys 数据集一起重新训练模型。值得注意的是，我在此阶段采用了 软标签分布优化，因为硬标签未能产生令人满意的结果。软标签提供了更细微的数据表示，使模型能够更有效地学习。这产生了更新后的 权重 1，结合了原始数据和伪标签数据的知识。

阶段 5：最终微调

最后，我使用更新后的 权重 1 在 WSDM 竞赛数据集 上微调模型，以获得 最终权重。此步骤确保模型完全针对竞赛的特定要求进行了优化。

技术与优化

动态批处理

为了加速推理，我实施了 动态批处理，根据输入序列长度动态调整批次大小。这显著提高了推理速度，同时没有牺牲准确性。

交换响应与测试时增强 (TTA)

我采用 交换响应 作为测试时增强 (TTA) 的一种形式。然而，由于时间限制，TTA 仅应用于第一轮推理后预测概率差异小于 0.25 的样本。这种选择性方法提高了效率，同时仍然增强了准确性。

附加说明

Token 截断：对于超过 3074 最大 token 长度的序列，保留响应的中间部分以保留最相关的信息。
软标签优化：阶段 4 中使用软标签分布被证明至关重要，因为硬标签未能提供所需的性能改进。

总结

这种多阶段训练方法，结合伪标签、软标签优化、动态批处理和选择性 TTA 等技术，使我能够有效地优化模型性能。虽然该过程计算密集，但结果显示了准确性和效率的显著提高。通过这次竞赛，我获得了关于高级模型训练策略、数据优化技术和迭代实验重要性的宝贵见解。这些学习不仅增强了我的技术技能，也加深了我对 AI 领域挑战和机遇的理解。我期待着将这些经验应用于未来的项目，并在这个动态领域继续成长为一名从业者。