674. Jigsaw - Agile Community Rules Classification | jigsaw-agile-community-rules
首先,我们要感谢组织者举办了如此精彩的 LLM 竞赛。其次,本解决方案主要建立在五个优秀的公开 Notebook 之上。非常感谢作者们分享这些想法。链接见底部。
解决方案包含三个主要部分:生成模型、分类模型和基于 Faiss 的检索。
这部分基于 @wasupandceacar 分享的生成式测试时训练方法。我们对该公开 Notebook 做了以下改进:
替代训练数据的探索:
当我们尝试调整使用的测试数据时,发现生成模型对数据量极其敏感,这可能是由于重复示例和噪声数据造成的。为了避免对公共榜过拟合,我们探索了更稳定的方法(事实证明在私有榜公布后这些方法次优)。
由于原始训练数据构建无法确保所有示例都作为正文训练,我们使用了所有去重后的示例,并为每个示例随机匹配正/负样本以增加多样性。
将这些新训练的模型与原始模型集成后结果如下:
| 模型 | 运行时间 (小时) | 公共榜 (LB) | 私有榜 (PB) |
|---|---|---|---|
| Qwen3-4B-Instruct-2507 | 3.0 | 0.924 | 0.918 |
| Llama 3.2 3B | 2.5 | 0.923 | 0.916 |
| Phi-3.5-Mini-Instruct | 3.5 | 0.918 | 0.913 |
*集成这三个模型后,公共榜 (LB) 得分为 0.930(私有榜 PB 0.924),运行时间为 9 小时。
这部分建立在 Team U DONNO WHO 和 DLH 分享的 DeBERTa 分类方法之上。我们实施了几项优化:
模型架构与训练:
模型性能:
| 模型 | 运行时间 (小时) | 公共榜 (LB) | 私有榜 (PB) |
|---|---|---|---|
| DeBERTa-v3-base | 0.5 | 0.909 | 0.902 |
| E5-base | 0.5 | 0.910 | 0.904 |
| MPNet-base | 0.5 | 0.906 | 0.900 |
*这三个模型的最终集成公共榜 (LB) 得分为 0.921(私有榜 PB 0.913),运行时间为 1.5 小时。
这部分基于 Aurora Rabbit 和 Ertuğrul Demir 分享的用于训练 BGE 模型的 triplet loss 方法。
我们的改进:
在推理阶段集成了单质心 (single centroid) 和 UMAP 聚类方法
*最终模型公共榜 (LB) 得分为 0.909(私有榜 PB 0.904),运行时间为 1.5 小时。
我们提交了两种不同的集成策略进行最终评估。
对于每个部分,模型首先在内部集成,然后在每个部分内进行排名归一化,最后使用加权平均组合。
基于公共榜 (LB) 性能,最终集成权重设置为 0.7 × 第一部分 + 0.25 × 第二部分 + 0.05 × 第三部分。
提交 1:
提交 2: