返回列表

MindsAI & Tufa Labs – ARC Prize 2025 Solution

677. ARC Prize 2025 | arc-prize-2025

开始: 2025-03-26 结束: 2025-11-03 数学与计算 数据算法赛
MindsAI & Tufa Labs – ARC Prize 2025 解决方案

MindsAI & Tufa Labs – ARC Prize 2025 解决方案

副标题:测试时适应预训练模型

请查看包含消融实验的完整报告:https://github.com/jcole75/arc_2025_mindsai/blob/main/MindsAI_Tufa_Labs_2025_Solution.pdf

比赛:ARC Prize 2025
团队名称:MindsAI & Tufa Labs
私有排行榜得分:15.42%
私有排行榜名次:第 3 名

A1. 关于您/您的团队的背景

团队成员:


A2. 关于您/您的团队的背景(完整简历)

Jack Cole (团队负责人 & 主要贡献者)

  • 学术/职业背景:临床心理学博士;兼职私人执业心理学家;并行职业为 AI 研究员和移动应用开发者(Mind Games 作者 – 下载量超过 3000 万)。
  • 过往经验:领导了 ARCathon 2023 的第一名团队;在 2024 年通过 ARC-AGI-1 保持了最先进的分数; pioneered Test-Time Training (TTT) 和 AIRV 技术,现在几乎所有顶级 ARC 解决方案都在使用这些技术。
  • 为什么参加 ARC Prize:自 2022 年年中以来,ARC 一直是我研究计划的核心焦点。
  • 花费时间:大约 3.5 年的近乎全职工作(2024 年底/2025 年初除外约 6 个月);数百次实验和在 TPU 上长达 2.5 年的训练运行。
  • 2025 年角色:设计、训练并提交了解决方案;代码、数据集、消融实验和最终提交均由我完成。

Dries Smit

  • 学术/职业背景:电气与电子工程博士;专注于强化学习、多智能体系统、分布式训练和大型语言模型。
  • 过往经验:领导了 ARC-AGI-3 预览竞赛的获胜解决方案;开发了 Laila(Llama 3.1 的生物助手微调版);在扩展 RL 和推理系统方面有广泛工作。
  • 为什么参加 ARC Prize:ARC 是一个核心推理基准,与自适应、测试时推理系统的研究完美契合。
  • 花费时间:赛季期间部分时间的兼职贡献。
  • 2025 年角色:提供了基于细化的训练实验和战略见解;其中一些想法被探索过,但最终对 TTT/AIRV 核心没有 additive 作用。

Isaiah Pressman

  • 学术/职业背景:自 2019 年起的 AI 研究员/工程师;之前在组织病理学计算机视觉、初创公司数据/ML 管道方面有工作经验,四次 Kaggle 前 2 名。
  • 过往经验:在 Tufa Labs 改善 LLM 训练和推理能力方面有深厚经验。
  • 为什么参加 ARC Prize:着迷于当前基础模型难以解决的纯推理挑战。
  • 花费时间:一个月每周约 20 小时,然后在比赛结束前全职工作一个月。
  • 2025 年角色:探索了一种有前途的基于扩散的语言建模方法(未包含在最终提交中,但加深了对架构的理解)。

Mohamed Osman

  • 学术/职业背景:电气工程硕士;5 年以上 ML 从业者和研究员经验。
  • 过往经验:在前几个赛季共同开发了早期的 ARC TTT 版本;强大的 ML 工程背景。
  • 为什么参加 ARC Prize:强烈同意 ARC Prize 对智能的定义并对核心问题感兴趣。
  • 花费时间:由于外部承诺,2025 年非常有限。
  • 2025 年角色:今年直接参与极少。

Michael Hodel

  • 学术/职业背景:AI 研究员;RE-ARC 和 ARC-DSL 的创建者。
  • 过往经验:机器学习经验,之前的 ARC 工作。
  • 为什么参加 ARC Prize:长期以来对 ARC 挑战的热情以及为社区构建工具/数据集。
  • 花费时间:2025 年有限。
  • 2025 年角色:提供了基础数据集(ARC 1.5, RE-ARC 变体),用于消融实验和部分训练数据。

A3. 摘要

我们的第 3 名解决方案围绕一个修剪过的 6.6 亿参数编码器 - 解码器模型构建,该模型源自 Salesforce CodeT5-Large,在超过 1 亿个推理示例(其中约 7000 万个为 ARC 风格任务)上训练了数月。几乎所有提交的绩效都来自大量的测试时适应:带有基于置换标签的测试时训练 (TTT)(约 4.5 万步)和使用每个任务 1 万次增强推理的增强 - 推理 - 反转 - 投票 (AIRV) —— 这些技术由我们团队在 2023 年引入,现在通常在排行榜上使用。这两种方法几乎完美地相加组合,在消融实验中比零样本提供了 8-12 倍的增益。额外的改进来自新的混合/组合增强、反转增强、分词器 BPE dropout、T5 跨度损坏以及集成两个检查点。完整的代码、模型和完整的 1 亿 + 示例训练语料库已公开发布。


A4. 特征选择/工程

没有传统特征 —— 绩效完全由数据增强驱动(相当于 ARC 的特征工程):

排名 增强方法 影响
1 几何变换(旋转/翻转)+ 颜色置换 基线必备
2 2025 新增:Mixup, Combine, Combine-mixup ARC 1.5 前 2 名 +6.3%
3 输入/输出交换(训练的 30%) 小幅分数提升
4 提示/答案反转(仅训练) 模型灵活性
5 BPE 分词器 dropout (TTT & 推理) 小幅分数提升

A5. 训练方法

  • 6.6 亿 CodeT5-Large → 编码器保持 24 层,解码器修剪至 16 层
  • 在 >1 亿个示例上进行监督训练(Google TPUs,部分运行累计 >2 年)
  • T5 跨度损坏 + 反转增强 + BPE dropout
  • 测试时:TTT(约 4.5 万示例)+ AIRV(1 万次增强)+ 自集成两个检查点

集成:结合同一架构的两个强检查点的预测。


A6. 有趣发现

  • TTT + AIRV 增益几乎是完美相加的(组合约 812%,而单独每个约 410–430%)。
  • 使用不同种子的自集成胜过使用 2 倍更多的 TTT/AIRV 样本(计算量匹配 +6.2%)。
  • 编码器深度 >> 解码器深度(移除编码器层损害严重;解码器可以大量修剪)。
  • 增强驱动的数据扩展可以打破数月的训练平台期。
  • 几种其他强有力的方法(细化、波束对上的 DPO、 targeted ARC-2 数据)与 TTT+AIRV 不相加。
  • ARC-AGI-2 似乎对当前的 TTT/AIRV 范式具有部分对抗性(至少对于这么小的模型)—— 需要新的想法。

A7. 简单特征与方法

一个显著简化但仍强大的版本(完整相对增益的 90–95% -- 链接在资源中):

  • 仅经典几何 + 颜色置换增强
  • TTT 使用 2–3 万示例 + AIRV 使用 5–1 万样本(单次运行,无集成,无 BPE dropout)

这在单个消费级 GPU 上运行几分钟到几小时,非常适合研究迭代。


A8. 模型执行时间

组件 硬件 大约时间
完整 6.6 亿训练 Google TPUs 数月到累计 2.5 年
7700 万消融模型训练 TPU v2-8 / v3-8 + v4-64 约 2 年 + 7 天
最终提交推理 (2× 集成) 4× L4 GPUs (Kaggle) 约 11 小时
简化版 7700 万单次运行推理 单个 P100 10–60 分钟

A9. 参考文献与公共资源

所有内容均在宽松许可下发布,以帮助社区推动 AGI 的发展。

同比赛其他方案