MindsAI & Tufa Labs – ARC Prize 2025 Solution | 优胜方案

MindsAI & Tufa Labs – ARC Prize 2025 解决方案

副标题：测试时适应预训练模型

请查看包含消融实验的完整报告：https://github.com/jcole75/arc_2025_mindsai/blob/main/MindsAI_Tufa_Labs_2025_Solution.pdf

比赛：ARC Prize 2025
团队名称：MindsAI & Tufa Labs
私有排行榜得分：15.42%
私有排行榜名次：第 3 名

A1. 关于您/您的团队的背景

团队成员：

Jack Cole – 美国伊利诺伊州奥尔尼 – jackcole@mindware.mobi
Dries Smit – 南非萨默塞特韦斯特 – dries.epos@gmail.com
Isaiah Pressman – 美国俄亥俄州克利夫兰高地 – isaiahpressman16@gmail.com
Mohamed Osman – 加拿大阿尔伯塔省卡尔加里 – mothman198@outlook.com
Michael Hodel – 瑞士 – hodelmichi@gmail.com

A2. 关于您/您的团队的背景（完整简历）

Jack Cole (团队负责人 & 主要贡献者)

学术/职业背景：临床心理学博士；兼职私人执业心理学家；并行职业为 AI 研究员和移动应用开发者（Mind Games 作者 – 下载量超过 3000 万）。
过往经验：领导了 ARCathon 2023 的第一名团队；在 2024 年通过 ARC-AGI-1 保持了最先进的分数； pioneered Test-Time Training (TTT) 和 AIRV 技术，现在几乎所有顶级 ARC 解决方案都在使用这些技术。
为什么参加 ARC Prize：自 2022 年年中以来，ARC 一直是我研究计划的核心焦点。
花费时间：大约 3.5 年的近乎全职工作（2024 年底/2025 年初除外约 6 个月）；数百次实验和在 TPU 上长达 2.5 年的训练运行。
2025 年角色：设计、训练并提交了解决方案；代码、数据集、消融实验和最终提交均由我完成。

Dries Smit

学术/职业背景：电气与电子工程博士；专注于强化学习、多智能体系统、分布式训练和大型语言模型。
过往经验：领导了 ARC-AGI-3 预览竞赛的获胜解决方案；开发了 Laila（Llama 3.1 的生物助手微调版）；在扩展 RL 和推理系统方面有广泛工作。
为什么参加 ARC Prize：ARC 是一个核心推理基准，与自适应、测试时推理系统的研究完美契合。
花费时间：赛季期间部分时间的兼职贡献。
2025 年角色：提供了基于细化的训练实验和战略见解；其中一些想法被探索过，但最终对 TTT/AIRV 核心没有 additive 作用。

Isaiah Pressman

学术/职业背景：自 2019 年起的 AI 研究员/工程师；之前在组织病理学计算机视觉、初创公司数据/ML 管道方面有工作经验，四次 Kaggle 前 2 名。
过往经验：在 Tufa Labs 改善 LLM 训练和推理能力方面有深厚经验。
为什么参加 ARC Prize：着迷于当前基础模型难以解决的纯推理挑战。
花费时间：一个月每周约 20 小时，然后在比赛结束前全职工作一个月。
2025 年角色：探索了一种有前途的基于扩散的语言建模方法（未包含在最终提交中，但加深了对架构的理解）。

Mohamed Osman

学术/职业背景：电气工程硕士；5 年以上 ML 从业者和研究员经验。
过往经验：在前几个赛季共同开发了早期的 ARC TTT 版本；强大的 ML 工程背景。
为什么参加 ARC Prize：强烈同意 ARC Prize 对智能的定义并对核心问题感兴趣。
花费时间：由于外部承诺，2025 年非常有限。
2025 年角色：今年直接参与极少。

Michael Hodel

学术/职业背景：AI 研究员；RE-ARC 和 ARC-DSL 的创建者。
过往经验：机器学习经验，之前的 ARC 工作。
为什么参加 ARC Prize：长期以来对 ARC 挑战的热情以及为社区构建工具/数据集。
花费时间：2025 年有限。
2025 年角色：提供了基础数据集（ARC 1.5, RE-ARC 变体），用于消融实验和部分训练数据。

A3. 摘要

我们的第 3 名解决方案围绕一个修剪过的 6.6 亿参数编码器 - 解码器模型构建，该模型源自 Salesforce CodeT5-Large，在超过 1 亿个推理示例（其中约 7000 万个为 ARC 风格任务）上训练了数月。几乎所有提交的绩效都来自大量的测试时适应：带有基于置换标签的测试时训练 (TTT)（约 4.5 万步）和使用每个任务 1 万次增强推理的增强 - 推理 - 反转 - 投票 (AIRV) —— 这些技术由我们团队在 2023 年引入，现在通常在排行榜上使用。这两种方法几乎完美地相加组合，在消融实验中比零样本提供了 8-12 倍的增益。额外的改进来自新的混合/组合增强、反转增强、分词器 BPE dropout、T5 跨度损坏以及集成两个检查点。完整的代码、模型和完整的 1 亿 + 示例训练语料库已公开发布。

A4. 特征选择/工程

没有传统特征 —— 绩效完全由数据增强驱动（相当于 ARC 的特征工程）：

排名	增强方法	影响
1	几何变换（旋转/翻转）+ 颜色置换	基线必备
2	2025 新增：Mixup, Combine, Combine-mixup	ARC 1.5 前 2 名 +6.3%
3	输入/输出交换（训练的 30%）	小幅分数提升
4	提示/答案反转（仅训练）	模型灵活性
5	BPE 分词器 dropout (TTT & 推理)	小幅分数提升

A5. 训练方法

6.6 亿 CodeT5-Large → 编码器保持 24 层，解码器修剪至 16 层
在 >1 亿个示例上进行监督训练（Google TPUs，部分运行累计 >2 年）
T5 跨度损坏 + 反转增强 + BPE dropout
测试时：TTT（约 4.5 万示例）+ AIRV（1 万次增强）+ 自集成两个检查点

集成：结合同一架构的两个强检查点的预测。

A6. 有趣发现

TTT + AIRV 增益几乎是完美相加的（组合约 812%，而单独每个约 410–430%）。
使用不同种子的自集成胜过使用 2 倍更多的 TTT/AIRV 样本（计算量匹配 +6.2%）。
编码器深度 >> 解码器深度（移除编码器层损害严重；解码器可以大量修剪）。
增强驱动的数据扩展可以打破数月的训练平台期。
几种其他强有力的方法（细化、波束对上的 DPO、 targeted ARC-2 数据）与 TTT+AIRV 不相加。
ARC-AGI-2 似乎对当前的 TTT/AIRV 范式具有部分对抗性（至少对于这么小的模型）—— 需要新的想法。

A7. 简单特征与方法

一个显著简化但仍强大的版本（完整相对增益的 90–95% -- 链接在资源中）：

仅经典几何 + 颜色置换增强
TTT 使用 2–3 万示例 + AIRV 使用 5–1 万样本（单次运行，无集成，无 BPE dropout）

这在单个消费级 GPU 上运行几分钟到几小时，非常适合研究迭代。

A8. 模型执行时间

组件	硬件	大约时间
完整 6.6 亿训练	Google TPUs	数月到累计 2.5 年
7700 万消融模型训练	TPU v2-8 / v3-8 + v4-64	约 2 年 + 7 天
最终提交推理 (2× 集成)	4× L4 GPUs (Kaggle)	约 11 小时
简化版 7700 万单次运行推理	单个 P100	10–60 分钟

A9. 参考文献与公共资源

完整代码、训练脚本、模型和 1 亿 + 示例数据集：
→ https://github.com/jcole75/arc_2025_mindsai
→ 包含消融实验的完整报告：https://github.com/jcole75/arc_2025_mindsai/blob/main/MindsAI_Tufa_Labs_2025_Solution.pdf
→ 数据集：https://huggingface.co/datasets/mindware/arc-agi-mega
→ 模型：https://huggingface.co/mindware
Cole & Osman (2025). Don't throw the baby out with the bathwater: How and why deep learning for ARC. arXiv:2506.14276 (https://arxiv.org/abs/2506.14276)
Hodel (2024). RE-ARC procedural generation. arXiv:2404.07353

所有内容均在宽松许可下发布，以帮助社区推动 AGI 的发展。

MindsAI & Tufa Labs – ARC Prize 2025 Solution