644. WSDM Cup - Multilingual Chatbot Arena | wsdm-cup-multilingual-chatbot-arena
首先,我要衷心感谢本次竞赛的组织者以及所有分享宝贵想法和见解的参与者。感谢队友 @guanyiming 和 @jiuxinfeng。参加这次活动是一次非常丰富的经历,让我学到了很多,并加深了对模型训练和优化前沿技术的理解。这既具有教育意义又令人鼓舞。
我选择了 gemma2-9b-it-fp16 作为基座模型。该模型在之前的竞赛中表现出了强大的性能。
对于监督微调,我使用了 QLoRA,超参数如下:
在第一阶段,我使用 lmsys-33k-deduplicated 数据集以及来自 lmsys 的额外数据对基座模型进行了微调。这产生了 权重 1,作为后续阶段的起点。
基于 权重 1,我使用 WSDM 竞赛数据集 进一步微调了模型,得到 权重 2。此阶段旨在使模型适应竞赛的特定领域。
在第三阶段,我使用 权重 2 在两个额外数据集上生成伪标签:
这些伪标签数据集随后被用于增强模型性能。
使用阶段 3 中的伪标签数据,我将其与 lmsys-33k-deduplicated 和 lmsys 数据集一起重新训练模型。值得注意的是,我在此阶段采用了 软标签分布优化,因为硬标签未能产生令人满意的结果。软标签提供了更细微的数据表示,使模型能够更有效地学习。这产生了更新后的 权重 1,结合了原始数据和伪标签数据的知识。
最后,我使用更新后的 权重 1 在 WSDM 竞赛数据集 上微调模型,以获得 最终权重。此步骤确保模型完全针对竞赛的特定要求进行了优化。
为了加速推理,我实施了 动态批处理,根据输入序列长度动态调整批次大小。这显著提高了推理速度,同时没有牺牲准确性。
我采用 交换响应 作为测试时增强 (TTA) 的一种形式。然而,由于时间限制,TTA 仅应用于第一轮推理后预测概率差异小于 0.25 的样本。这种选择性方法提高了效率,同时仍然增强了准确性。
这种多阶段训练方法,结合伪标签、软标签优化、动态批处理和选择性 TTA 等技术,使我能够有效地优化模型性能。虽然该过程计算密集,但结果显示了准确性和效率的显著提高。通过这次竞赛,我获得了关于高级模型训练策略、数据优化技术和迭代实验重要性的宝贵见解。这些学习不仅增强了我的技术技能,也加深了我对 AI 领域挑战和机遇的理解。我期待着将这些经验应用于未来的项目,并在这个动态领域继续成长为一名从业者。