677. ARC Prize 2025 | arc-prize-2025
副标题:测试时适应预训练模型
请查看包含消融实验的完整报告:https://github.com/jcole75/arc_2025_mindsai/blob/main/MindsAI_Tufa_Labs_2025_Solution.pdf
团队成员:
我们的第 3 名解决方案围绕一个修剪过的 6.6 亿参数编码器 - 解码器模型构建,该模型源自 Salesforce CodeT5-Large,在超过 1 亿个推理示例(其中约 7000 万个为 ARC 风格任务)上训练了数月。几乎所有提交的绩效都来自大量的测试时适应:带有基于置换标签的测试时训练 (TTT)(约 4.5 万步)和使用每个任务 1 万次增强推理的增强 - 推理 - 反转 - 投票 (AIRV) —— 这些技术由我们团队在 2023 年引入,现在通常在排行榜上使用。这两种方法几乎完美地相加组合,在消融实验中比零样本提供了 8-12 倍的增益。额外的改进来自新的混合/组合增强、反转增强、分词器 BPE dropout、T5 跨度损坏以及集成两个检查点。完整的代码、模型和完整的 1 亿 + 示例训练语料库已公开发布。
没有传统特征 —— 绩效完全由数据增强驱动(相当于 ARC 的特征工程):
| 排名 | 增强方法 | 影响 |
|---|---|---|
| 1 | 几何变换(旋转/翻转)+ 颜色置换 | 基线必备 |
| 2 | 2025 新增:Mixup, Combine, Combine-mixup | ARC 1.5 前 2 名 +6.3% |
| 3 | 输入/输出交换(训练的 30%) | 小幅分数提升 |
| 4 | 提示/答案反转(仅训练) | 模型灵活性 |
| 5 | BPE 分词器 dropout (TTT & 推理) | 小幅分数提升 |
集成:结合同一架构的两个强检查点的预测。
一个显著简化但仍强大的版本(完整相对增益的 90–95% -- 链接在资源中):
这在单个消费级 GPU 上运行几分钟到几小时,非常适合研究迭代。
| 组件 | 硬件 | 大约时间 |
|---|---|---|
| 完整 6.6 亿训练 | Google TPUs | 数月到累计 2.5 年 |
| 7700 万消融模型训练 | TPU v2-8 / v3-8 + v4-64 | 约 2 年 + 7 天 |
| 最终提交推理 (2× 集成) | 4× L4 GPUs (Kaggle) | 约 11 小时 |
| 简化版 7700 万单次运行推理 | 单个 P100 | 10–60 分钟 |
完整代码、训练脚本、模型和 1 亿 + 示例数据集:
→ https://github.com/jcole75/arc_2025_mindsai
→ 包含消融实验的完整报告:https://github.com/jcole75/arc_2025_mindsai/blob/main/MindsAI_Tufa_Labs_2025_Solution.pdf
→ 数据集:https://huggingface.co/datasets/mindware/arc-agi-mega
→ 模型:https://huggingface.co/mindware
Cole & Osman (2025). Don't throw the baby out with the bathwater: How and why deep learning for ARC. arXiv:2506.14276 (https://arxiv.org/abs/2506.14276)
Hodel (2024). RE-ARC procedural generation. arXiv:2404.07353
所有内容均在宽松许可下发布,以帮助社区推动 AGI 的发展。