从 ARC-AGI-3 看大模型的能力断层:知识智能、交互智能与技能获取效率

ARC-AGI-3 的发布,使关于“大模型是否正在逼近 AGI”的讨论进入了一个新的阶段。与 ARC-AGI-1/2 主要测试静态抽象推理不同,ARC-AGI-3 转向交互式环境,要求系统在无自然语言说明、无外部知识依赖的条件下,通过行动与反馈循环主动探索未知环境,形成世界模型、推断目标并规划行动。官方技术报告显示,在 2026 年 3 月发布时,人类可解 100% 的测试环境,而前沿模型在官方榜单上的得分均低于 1%,其中 Gemini 3.1 Pro Preview 为 0.37%,GPT 5.4 (High) 为 0.26%,Opus 4.6 (Max) 为 0.25%。

这并不自动意味着“AI 被打回原形”,但它确实精确地暴露了当前大模型体系的一个深层结构性短板:其在知识调用、语言压缩和离线任务求解方面已经高度成熟,但在陌生环境中的高效技能获取、在线假设修正与交互式策略形成方面,仍与人类存在显著差距。ARC-AGI-3 的真正意义,不在于给出一纸关于 AGI 的最终判决,而在于迫使研究者区分三种常被混淆的能力层级:知识智能、任务智能与环境智能,并重新审视“智能”究竟应被理解为已有技能的表现,还是新技能的获取效率。

为什么 ARC-AGI-3 值得被认真对待

围绕 ARC-AGI-3 的第一波舆论反应,大多呈现两种极端。一种将其渲染为“AI 一夜之间现出原形”的证据,仿佛此前几年大模型在代码、数学、知识组织与复杂工作流上的进展都因一个 benchmark 的低分而被一笔抹消;另一种则轻描淡写地把它视为又一个“刻意刁钻”的测试,认为其不过是一个小众研究者社区制造的新门槛。两种看法都不准确。

ARC-AGI-3 之所以重要,不是因为它证明了 AI 无能,也不是因为它可以单独定义 AGI;它的重要性在于,它将一个长期被大模型成功叙事所掩盖的问题清晰地制度化了:当系统脱离自然语言说明、脱离先验知识覆盖、脱离已经格式化好的输入输出接口之后,是否仍然能够在陌生环境中高效地“学会如何行动”。官方对 ARC-AGI-3 的定义非常明确:它是“首个交互式推理 benchmark”,目标是测量 agent 在新环境中的探索、目标获取、可适应世界模型构建与持续学习能力;100% 分数的含义不是“能解题”,而是“能够像人一样高效地解决全部游戏”。

这一点标志着评测焦点的转向。过去几年,主流 benchmark 主要测的是“在给定问题表述之下,你能否生成高质量答案”;而 ARC-AGI-3 更接近在问:“当问题本身没有被明确表述时,你能否通过与世界互动,把问题从环境中主动提取出来?”二者差异巨大。前者主要依赖知识压缩、模式迁移与符号生成;后者则要求探索、建模、目标推断、行动选择、失败回滚、记忆压缩等一系列能力形成耦合闭环。ARC Prize 基金会在技术报告中将其直接表述为对“agentic intelligence”的评估,并强调该 benchmark 聚焦的是 novel tasks 上的 fluid adaptive efficiency,而非语言或外部知识。

因此,ARC-AGI-3 的价值不在于制造戏剧性落差,而在于把智能测量从“回答正确”推进到了“如何学会回答”。这与 Chollet 在《On the Measure of Intelligence》中提出的核心主张完全一致:智能不应被理解为某个既定任务上的技能水平,而应被理解为在有限先验与有限经验下获取新技能的效率。ARC-AGI-1 是这套思想在静态抽象任务上的第一次工程化落地;ARC-AGI-3 则是它在交互环境中的进一步扩展。

从静态推理到交互式技能获取

ARC-AGI-3 交互任务形态示意图

任务形态的变化:从“给定题目”到“进入世界”

ARC-AGI-1/2 的核心形式,是从少量输入与输出示例中归纳变换规则,再将规则应用于新样本。这类任务已经超出简单模式匹配,但本质上仍是静态的:世界不随行动而变化,任务边界与目标条件已经被题面隐式固定。ARC-AGI-3 则将测试对象从“静态任务求解器”转变为“交互式环境中的行动者”。技术报告指出,其环境是 novel、abstract、turn-based 的,agent 必须在没有明确说明的条件下,探索环境、推断目标、建立内部环境动力学模型,并规划有效行动序列。

这个变化看似只是 benchmark 形式更新,实则触及智能研究中的一个关键分界:静态推理与交互式认知不是同一种能力。一个系统即使拥有极强的离线推理能力,也未必能在新环境中做出高质量主动试探;即使能解释自己“认为世界可能如何运作”,也未必能通过最少动作高效证伪自己的错误假设。换言之,ARC-AGI-3 测的不是“能否算对”,而是“能否以接近人类的样本效率形成可行动的理解”。

四个核心能力维度:探索、建模、目标获取、规划执行

ARC Prize 2026 竞赛页明确将 ARC-AGI-3 所测试的能力拆成四项:探索、建模、目标获取与规划。探索要求信息不是被动给出,而是通过与环境互动主动获得;建模要求将观察转化为可泛化的世界模型,并预测未来状态与结果;目标获取要求在未被告知明确目标的情况下,推断出“应当达成什么”;规划则要求在稀疏反馈与多步决策条件下形成行动路径。

这个四分法很重要,因为它揭示了 ARC-AGI-3 不是一个“更难的小游戏集合”,而是一个能力组合的压力测试。传统大模型往往在给定目标函数的条件下表现优秀:用户问什么,模型就围绕该目标进行生成或求解;工具接口给得足够清晰,模型也能在有限步骤内完成操作。但 ARC-AGI-3 刻意删除了这种“任务外部化”的便利条件。目标不再由题面给出,环境规律不再由说明文档定义,系统必须自己完成“任务建模”的前半程。这实际上是在测试 agent 是否具备自足的认知起点。

ARC-AGI-3 四项能力维度

设计原则:为什么要压制语言和外部知识

ARC-AGI-3 官方页面与技术报告都强调,该 benchmark 避免语言与外部知识,环境只依赖所谓 Core Knowledge priors,包括 objectness、基础几何拓扑与基础物理直觉等,以尽量使测试聚焦于“先天可迁移推理”而非“后天知识覆盖”。报告还指出,环境构造中有意避免与现有游戏过于相似,以降低预训练污染和记忆性捷径。

这一设计有明显的方法论意图:如果一个 benchmark 允许系统通过互联网知识、自然语言说明或训练集记忆直接调用现成策略,那么它测到的往往是知识检索能力而非新技能获取能力。ARC-AGI-3 刻意制造“first contact”情境,就是为了把“以前见过”与“现在学会”区分开来。也正因此,它天然对依赖语言压缩与先验分布拟合的大模型架构更不友好。

ARC-AGI-3 对语言与外部知识的限制设计

评分机制的哲学与陷阱

ARC-AGI-3 最值得分析的部分,不只是它让前沿模型低分,而是它如何让“低效”被高度惩罚。技术报告把核心标量定义为 action efficiency,并在评分中使用 RHAE(Relative Human Action Efficiency)。其基本逻辑是:每一关按 AI 相对于人类基线的动作效率计分;人类基线取第二优人类参与者的动作数;若人类 10 步完成、AI 100 步完成,则该关得分为 (10/100)^2 = 1%。报告明确说明,平方惩罚是故意引入的,因为 benchmark 希望抑制 brute force,奖励真正高信息增益的探索。

这意味着两个重要结论。

第一,ARC-AGI-3 的低分不等价于“不会”,而更接近于“会得极不经济”。如果一个系统能通过大量试探最终得到正确路径,在许多传统 benchmark 中它仍可能被记作“解出”;但在 ARC-AGI-3 中,动作冗余会被急剧折损成接近零的分数。也就是说,这不是一个“正确率为中心”的 benchmark,而是一个“技能获取效率为中心”的 benchmark。

第二,ARC-AGI-3 的分数天然具有强烈的解释学门槛。一个不了解其评分机制的读者看到 0.25%,很容易误以为系统“几乎完全没有能力”;但就 benchmark 设计而言,它真正表达的是:在要求接近人类动作效率这一严格条件下,现有系统远未形成稳定的高效探索策略。官方页面甚至直接说,ARC-AGI-3 让“AI 与人类学习之间的差距变得可测量”,因为它测试的是 across time 的 intelligence,而不只是最终答案,涉及 planning horizons、memory compression 和 belief update。

因此,对 0.25% 的正确解读应当是:当前前沿模型在“陌生环境中的第一类接触式学习”上极不高效,而不是“整体能力只剩 0.25%”。它把系统的弱点聚焦在样本效率、行动价值估计与假设修正,而非简单的终局可达性。

前沿模型为何集体低于 1%

官方技术报告给出的发布时官方榜单是:Gemini 3.1 Pro Preview 0.37%,GPT 5.4 (High) 0.26%,Opus 4.6 (Max) 0.25%,Grok-4.20 0.00%。同时,报告强调 humans can solve 100% of the environments,而 benchmark 经 extensive human testing 校准,只保留“easy for humans”的环境。每个环境由 10 名公众参与者测试,只有至少两名参与者可以独立完整解出的环境才会被纳入集合。

这一结果至少说明三件事。

问题不在于“知识不足”,而在于“互动闭环不成立”

大模型在百科知识、代码模式、数学模板、文档归纳与工具指令理解上的表现已经反复证明,其参数内部包含极高密度的知识压缩结构。如果 ARC-AGI-3 的难点主要是知识覆盖,那么更大的模型、更多的预训练样本和更强的检索增强本应带来相对稳定的收益;但官方结果显示,当前前沿模型在这一测试上几乎集体失速。更合理的解释是:它们所擅长的是基于已有分布的知识调用与文本内推理,而不是在新环境中通过交互建立行动模型。

参数规模与预训练丰富度,并不会自动转化为高质量探索

ARC-AGI-3 的重要发现之一,是熟悉大规模语言建模的人通常默认的技术直觉——“更强的通用模型会自然外溢出更强的 agent 行为”——至少在这里没有得到支持。相反,报告中的 developer preview 结果显示,排名靠前的方案并非传统大模型路线。2025 年 7 至 8 月的预览赛中,第一名 StochasticGoose 得分 12.58%,采用的是 CNN 加强化学习来预测动作后果;报告同时提到若干 harness 方法,诸如让模型以 Python 方式访问和转换交互历史、或使用 orchestrator–subagent 结构压缩上下文,它们能在公开环境上达到接近人类的动作效率。官方甚至明确提醒:community leaderboard 上由领域特化 harness 取得的成绩,不应直接解释为 AGI 进展,尽管其具有现实的经济价值。

这恰恰提示出一个关键事实:在交互式环境中,“模型能力”与“系统能力”高度耦合。一个纯粹依赖单轮文本推理的基础模型,未必能形成高质量的探索策略;而加入外部记忆、状态提取、行动价值估计、子任务分解与历史压缩之后,整体系统行为可能显著改善。

元认知式修正:大模型最弱的一环

ARC-AGI-3 官方结论中特别指出,人类与 AI 的差距不仅反映在 reasoning capability,也反映在 exploration strategies、hypothesis revision 以及 uncertainty 下的 efficient planning 上。这个表述值得重视,因为它意味着问题未必在于模型不会“想”,而可能在于模型不会“知道自己当前想错了”。

人类在陌生环境中的优势,往往不是一开始就有完整模型,而是在非常少的试探后便能迅速判断哪些假设不值得继续投入动作预算。大模型则常常相反:一旦基于初始观察生成一个看似合理的叙述框架,就倾向于沿着这个框架惯性推进,而缺乏足够低成本、低延迟的证伪与回退机制。这是语言建模系统的典型结构性问题:它们更擅长生成连贯解释,而不是最优地分配探索动作。

从 ARC-AGI-3 提炼能力分层

为了避免把 ARC-AGI-3 误读为“AI 整体崩塌”,有必要建立一个更清晰的能力分析框架。本文建议至少区分三层能力:知识智能、任务智能与环境智能。

知识智能、任务智能与环境智能分层

知识智能:大模型最成熟的一层

所谓知识智能,是指系统对语言、代码、事实知识、符号结构与模式模板的压缩、调用与重组能力。它对应的是“大模型为什么能在问答、摘要、翻译、代码生成、考试式推理中表现出色”。这类能力的强项在于:任务边界清晰、目标函数显式、训练分布与使用分布之间存在可观重叠,系统可以依赖已有内部表征完成高质量映射。

当前前沿大模型无疑已经在这一层达到了前所未有的高度。若仅从知识智能看,“模型已经很强”不是宣传口径,而是经验事实。ARC-AGI-3 并不推翻这一点,因为它几乎故意剥离了这层能力最擅长发挥作用的条件。

任务智能:企业级 agent 快速逼近的一层

任务智能位于知识智能之上,是指在给定目标、接口和反馈结构的条件下,系统跨多步完成工作流的能力。许多现实中的 AI agent 实际处于这一层:它们未必真正理解陌生世界,但只要有明确任务说明、可调用工具、有限环境状态和适当的人类约束,就能稳定完成搜索、整理、写作、编程、分析与自动化操作。

从产业角度看,任务智能已经在快速商业化。它并不要求系统具备“像人一样进入陌生世界并自我构建目标”的能力;它要求的是,在目标函数由人类外部提供的前提下,高效调度知识、工具和流程。因此,ARC-AGI-3 的低分并不直接削弱任务智能的现实价值。

环境智能:ARC-AGI-3 主要瞄准的一层

环境智能则是更困难的一层。它要求系统在目标不透明、规则未知、反馈稀疏的情况下,通过探索与建模形成对环境的可行动理解,并能够在不确定条件下以高样本效率更新策略。ARC-AGI-3 测试的正是这一层。

三层能力并非彼此孤立,但不能简单互推。知识智能强,不等于环境智能强;任务智能强,也不等于一旦移除说明文档与目标定义,系统仍可独立适应陌生环境。ARC-AGI-3 的低分,真正揭示的是:当前大模型已经在知识智能上高度成熟,在任务智能上快速逼近可规模化应用,但在环境智能上仍处于早期阶段。

这一定义上的澄清极其关键,因为它直接改变我们对“AGI 进展”的表述方式。若把 AGI 粗暴理解为“几乎所有对人有价值任务上的可替代性”,那么今天的大模型已经在部分领域逼近强实用状态;若把 AGI 理解为“像人一样在陌生环境中高效获取新技能”,那么 ARC-AGI-3 表明我们离这一目标仍然相当遥远。两种说法并不互斥,只是指向不同的智能层级。

ARC-AGI-3 暴露的大模型结构性短板

ARC-AGI-3 暴露的大模型结构性短板

探索策略低效

ARC-AGI-3 的首要要求不是推理深度,而是探索质量。由于评分以动作效率为核心,任何低信息增益动作都会对成绩造成指数级伤害。当前模型的问题往往不是毫无行动能力,而是无法在前几步迅速识别“哪种动作最能缩小假设空间”。这与人类有明显差异。人类在陌生环境中的试探通常不是均匀随机的,而是带有强烈的“诊断性”倾向:先做最能验证关键假设的动作,再根据反馈快速调整。模型则更容易出现连续多步试探都不改变核心不确定性的情形。

世界模型不稳定

许多语言模型在文本空间中展现出的“理解力”,很大程度来自对海量符号关联的压缩与重构。然而交互式环境要求的不只是解释能力,而是可执行的预测能力:如果采取动作 A,环境状态将如何转移;若假设 H 成立,则应在下一帧看到什么;若没有看到,则 H 应如何被修订。没有稳定的状态转移表征,计划就是空中楼阁。

ARC-AGI-3 之所以对传统 LLM 路线构成压力,原因正在于它把“可行动的理解”与“语言上的似懂非懂”区分开来。一个系统能写出一段漂亮的解释文字,并不意味着它真的持有精确且可更新的世界模型。

记忆与上下文管理不足

技术报告专门指出,context management 是 ARC-AGI-3 的中心难题之一。环境帧为 64×64 网格,若简单滚动保留完整历史,很快就会耗尽上下文预算。报告提到,Duke 相关合作通过允许模型执行 Python 来选择性检索与转换历史信息;另一些方法则通过 orchestrator–subagent 架构让子代理输出压缩摘要,以抑制上下文膨胀。

这说明一个重要事实:交互智能不是把 CoT 拉长即可得到的。长程认知需要专门的状态表示、事件抽象、记忆索引与策略相关信息提取机制。纯文本上下文堆叠本质上是一种脆弱的外显记忆,不适合承担复杂环境中的历史管理任务。

缺乏显式的元认知回路

人类在 ARC 类任务上的优势,不只是能形成假设,更重要的是能快速发现假设失效,并愿意低成本放弃错误思路。当前大模型虽然可以在提示中被要求“反思”或“自我纠错”,但这类机制大多是事后生成层面的,并非系统级的在线控制回路。换言之,它们可以被要求说“我可能错了”,却未必真正拥有一套高效的、动作级别的假设管理机制。

ARC-AGI-3 实际上要求一种更接近主动科学发现的行为:提出候选模型、设计诊断性试验、依据反馈更新置信度、快速终止低价值路径。当前大模型与其说缺少“答案”,不如说缺少“何时停止当前答案”的机制。

ARC-AGI-3 的边界

要严肃对待 ARC-AGI-3,也必须严肃指出它的边界。

首先,它主要测量的是 fluid adaptive efficiency,而不是广义经济价值。一个系统即使在 ARC-AGI-3 上表现很差,仍可能在代码生产、文档分析、研究辅助、企业自动化、数据处理和内容生成上带来巨大生产力提升。ARC Prize 官方自己也把 benchmark 描述为对“human-like intelligence”的测量,而非对所有实用能力的总和评估。

其次,它采用的是一种特定的 AGI 哲学:把智能定义为新技能获取效率。这个立场有很强的理论一致性,也有工程上的吸引力,但它不是唯一的 AGI 定义。经济学导向的 AGI 讨论往往更关心系统是否能够在大范围有价值任务上替代人类劳动;而 ARC-AGI-3 更关心系统是否具备像人一样的 first-contact learning。两者相关,但不等价。

再次,benchmark 设计本身也在塑造“什么被算作智能”。例如官方对 community leaderboard 的态度非常明确:harness 创新在现实中有价值,但不应轻率视为 AGI 进展。这一判断包含了某种“纯度偏好”——即更重视系统内生能力,而非外部脚手架增强。是否接受这种偏好,本身就是方法论问题。

因此,ARC-AGI-3 的正确位置应是:它不是 AGI 的终审判决书,而是一次高强度、方向正确的方法论压力测试。它测试的是一种极其重要、且过去被大量静态 benchmark 淹没的智能切面。

从 ARC-AGI-3 反推技术路线

如果把 ARC-AGI-3 只读成“模型现在还不行”,那它的价值会被浪费。更重要的问题是:它指向了哪些具体的研究方向。

从 ARC-AGI-3 反推的技术路线

世界模型将重新成为中心议题

过去几年,大模型的成功使“统一 token 预测”一度看起来足以吞并多种智能功能。但 ARC-AGI-3 表明,光有语言空间中的压缩与续写,不足以支撑陌生环境中的高质量行动。系统需要显式或半显式的世界模型,能够表示对象、关系、动力学、可达性与隐藏机制,并在反馈中快速修正。这不必意味着回到老式符号 AI,但必然要求比“把一切写进上下文”更强的环境表征。

信息增益驱动的探索,而非盲目试错

高质量 agent 不只是会选“看起来可能正确”的动作,而是会优先选择“最能区分多个竞争假设”的动作。探索本身应成为优化对象。下一阶段的重要方向,不是让模型生成更长的推理链,而是让系统拥有更强的 action-value-of-information 估计能力。

记忆系统不能再附属于上下文窗口

ARC-AGI-3 已经清楚显示,长程交互需要结构化记忆而非线性记忆。未来 agent 架构中,事件压缩、状态摘要、因果回放、检索式历史访问、层级化工作记忆与情景记忆分离,很可能都会重新成为核心部件。上下文窗口再大,也不等于记忆系统成立。

规划与反思必须成为闭环,而非提示词装饰

当前许多“反思”“复盘”“自校验”做法,本质上仍是语言后处理层。ARC-AGI-3 提示我们,真正需要的是在线控制意义上的回路:策略提出、关键假设显式化、诊断动作插入、证伪触发、回滚重规划。这类结构比单次更强推理更接近交互智能的核心。

基础模型与外部系统的边界将被重新划分

ARC Prize 技术报告对 harness 的讨论实际上给出了一条很现实的路线图:许多今天看似“外挂”的机制,未来会逐步吸收到模型 API 背后,进而演化为第一方能力。这一过程过去已经发生过,例如链式思维从外部 prompting 技巧逐渐演变为模型产品能力。交互智能也大概率如此。短期内最有效的系统可能不是“单体超级模型”,而是“基础模型 + 外部记忆 + 搜索规划 + 状态抽象 + 在线适应”的复合体;中长期则可能出现这些模块的重新内生化。

结论

ARC-AGI-3 的真正冲击,不在于它让前沿模型官方得分低于 1%,而在于它迫使我们停止用一种混合而模糊的语言谈论“智能”。过去两年,围绕大模型的公共叙事中,知识智能、任务智能和环境智能被频繁混为一谈:模型能写代码,于是被推断为接近通用智能;模型能调用工具,于是被推断为已经具备自主学习能力;模型能在某些考试或基准上超过人类,于是被推断为 AGI 只差最后一步。ARC-AGI-3 把这种线性外推打断了。

它告诉我们的不是“大模型不行了”,而是:大模型已经在知识智能上形成优势,在任务智能上形成广泛实用性,但这两者并不会自动过渡到环境智能。陌生世界中的高效技能获取,仍然是一个尚未解决的问题。Chollet 在 2019 年提出“智能是技能获取效率”时,更多还是理论性主张;ARC-AGI-3 则将这一主张推进到了更苛刻也更具解释力的交互式评估框架中。

ARC-AGI-3 对 AGI 研究议程的影响

因此,ARC-AGI-3 最终改写的不是排行榜,而是研究议程。今后真正有价值的问题将不再只是“模型知道多少”“模型会不会答”,而是“模型能否在未知环境中以接近人类的成本学会行动”。若这个问题不被解决,那么所谓 AGI 仍更像是高密度知识压缩系统的扩展,而非真正意义上的通用适应性智能。反过来,一旦这个问题开始被系统性攻克,今天许多看似外挂的记忆、规划、状态抽象与探索控制机制,很可能会成为下一代 AI 体系结构的基础构件。

ARC-AGI-3 的价值,正是在这里:它不是一场夸张叙事所需要的“末日证据”,而是一面相对干净的镜子。镜子里照出的,不是 AI 是否彻底失败,而是我们距离“会回答的系统”与“会进入世界并学会的系统”之间,究竟还隔着什么。

参考资料

  1. ARC Prize Foundation. ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence(2026-03-24)。
  2. ARC Prize Foundation. ARC-AGI-3 Official Page
  3. ARC Prize Foundation. ARC Prize 2026 ARC-AGI-3 Competition
  4. François Chollet. On the Measure of Intelligence(2019)。

Related