Skip to content

Agentic Scaling:AI 扩展定律的下一阶段

封面

你可能听过一个常识:模型能力越强,解决问题需要的思考步数越少。但 2024 年以来的一系列实验结果完全推翻了这个认知:参数规模越大、基础能力越强的模型,增加推理步数带来的性能增益反而越高;反而是 7B 以下的小模型,加步数很容易越想越错,收益几乎为零。另一个反常识的事实是:OpenAI o1 在 MATH 数据集上把准确率从 GPT-4 的 42% 干到 83%,靠的不是堆参数,而是把推理步数拉到了几十级——整个过程参数规模几乎没有增长,单位计算投入的性能增益是传统堆参数路线的 10 倍以上。到了 2025 年,o3 在 ARC-AGI 基准上一举拿下 88% 的准确率,o4-mini 在 AIME 2025 上达到 99.5% 的 pass@1——全靠推理阶段的计算扩展,没有靠堆参数。这背后就是我们今天要聊的 Agentic Scaling,被 DeepMind、OpenAI、Google Research 一致认为是大模型扩展定律的下一阶段。

为什么传统扩展定律走不通了

我们先明确一个前提:传统的大模型 Scaling Law 大家已经很熟悉了,核心就是三个静态扩展维度:模型参数规模、训练数据量、训练计算量,只要按比例往上堆,模型性能就能按幂律增长。但这条路线从 2022 年开始已经明显走不动了,核心问题就是边际收益的快速下滑。

根据行业公开数据,2022 年以来传统参数 Scaling 的边际收益每年下降 40%,最直观的例子就是 GPT-4 到 GPT-4o 的迭代:MMLU 指标只提升了 4 个百分点,但单位计算投入却上涨了 2 倍,ROI 直接砍到了原来的 1/6。更要命的是,对于数学推理、代码调试、长程规划这类需要多步认知迭代的复杂任务,传统堆参数的路线几乎碰到了天花板:GPT-4 在 MATH 数据集上的准确率停留在 42%,后续更大参数的模型也很难再往上突破 10 个百分点,再堆参数的收益几乎可以忽略。

这背后的本质原因是:静态模型的单步推理能力是有上限的,很多复杂任务本身就需要多轮思考、试错、修正才能完成,比如解一道奥数题可能需要 5—10 步推导,写一段复杂代码可能需要 3—5 次调试,这些过程靠单步生成根本不可能完成,不管你参数堆得多大。传统 Scaling Law 只覆盖了模型的静态属性,完全没有考虑到动态推理过程的可扩展性,这就是 Agentic Scaling 要解决的核心问题。

行业目前已经形成共识:AI 计算的三条扩展曲线——预训练扩展、后训练优化、推理时计算扩展——正在从串行走向并行。2026 年推理工作负载预计将占到全部 AI 计算的三分之二,这一比例的逆转正是 Agentic Scaling 崛起的宏观背景。

Agentic Scaling 的核心机制:把动态行为变成可扩展的新维度

很多人可能会把 Agentic Scaling 和 AutoGPT 这类应用层 Agent 搞混,我们先掰扯清楚几个核心的概念边界,避免认知偏差:

易混淆概念与 Agentic Scaling 的核心差异
普通 Agent 应用(如 AutoGPT、业务 Agent)属于场景级解决方案,目标是完成特定任务;Agentic Scaling 是系统级扩展范式,核心是证明行为维度符合幂律扩展规律,是基础模型研发层的框架,而非应用层技巧
传统参数/计算 Scaling(含 MoE)扩展变量为模型静态属性(参数、训练数据),计算投入集中在训练阶段;Agentic Scaling 扩展变量为动态行为(推理步数、工具调用次数、多智能体协作规模),计算投入 60% 以上发生在推理阶段
Prompt 工程/任务微调属于模型性能优化手段,不改变扩展维度;Agentic Scaling 可以兼容上述优化,但核心是新增可规模化的行为扩展轴

说白了,Agentic Scaling 不是让你在应用层套个 Agent 框架解决某个具体问题,而是把「智能体的动态行为」变成了和参数、训练数据并列的、可量化的扩展维度,只要往这个维度投计算,性能就能按幂律增长,这才是它作为下一代扩展定律的核心价值。

它的核心机制可以分为四步,每一步都解决了之前多步推理路线的核心痛点:

1. 扩展维度定义

首先要把之前模糊的「思考过程」变成可量化、可和计算投入直接绑定的变量,目前行业已经形成共识的三个核心扩展变量是:有效推理步数(自我反思/修正轮次)、有效工具调用次数、多智能体有效协作轮次。注意这里的关键词是「有效」,不是随便加步数就算扩展,必须是能带来性能提升的有效行为才会被计入,这就避免了无意义的计算浪费。

2. 动态资源分配

如果给所有请求都分配 32 步推理,那成本肯定会炸,所以第二步是基于难度分类器对输入样本做分层:简单样本(比如普通问答、信息抽取)只分配 1 步基础推理,复杂样本(比如数学推理、代码调试)才分配更多计算资源,最多可达 32 步加多次工具调用。根据 OpenAI 2024 开发者大会的公开数据,这套动态分配机制可以把 Agentic Scaling 的平均推理成本控制在固定步长的 2 倍以内,同时带来 40% 以上的性能提升。2026 年 2 月最新的自适应验证器引导框架进一步验证了这一点:基于不确定性动态分配计算资源的策略,在 MATH-500 和 AIME24 等基准上显著优于均匀分配,这意味着「该想的多想、不该想的少想」不只是直觉,而是有严格实证支撑的最优策略。

3. 轨迹有效性剪枝

多步推理最大的痛点就是误差累积:前一步的小错误会被后面的步骤放大,导致步数越多准确率越低。Agentic Scaling 的解决方案是每一步迭代后都通过任务专属验证器判别当前轨迹是否有效,剪掉错误路径,只保留有效计算路径。验证器的选择和任务强相关:代码任务用 Jupyter Kernel 执行校验,数学任务用 Lean/MiniF2F 校验器,事实类任务用搜索引擎 API 校验,只要验证器准确率 ≥ 95%,就能把无效计算占比控制在 30% 以内,避免误差累积。

4. 轨迹蒸馏闭环

最后一步是把大规模有效 Agent 行为轨迹蒸馏回基础模型,提升单步推理的基线准确率,形成「扩展—蒸馏—更高基线扩展」的正向循环。也就是说,你用多步推理拿到的优质结果,反过来可以让模型单步推理的能力更强,下次再做同类任务需要的步数更少,进一步降低成本。DeepSeek R1 的蒸馏实践就是一个典型案例:团队将 671B 参数的推理模型的轨迹蒸馏到 1.5B—70B 的小模型上,小模型也成功习得了自我验证和反思等推理行为,证明了蒸馏闭环在工业界的可行性。

这里要特别强调 Agentic Scaling 成立的三个核心前提,所有的性能增益和落地限制都和这三个假设直接相关:

  1. 认知类任务的性能与有效推理步数正相关,且该相关性的衰减速度显著慢于传统参数 Scaling 的边际收益衰减速度;
  2. 存在准确率 ≥ 95% 的轨迹有效性判别机制,扩展过程中无效计算占比不超过 30%;
  3. 动态资源分配、轨迹剪枝的系统开销低于其带来的性能增益。

实证支撑:从实验室到产品级验证

空口说机制没用,我们直接看已经被公开验证的实证数据。

DeepMind 2024:首次证明幂律有效性

DeepMind 2024 年的论文首次完整证明了 Agentic Scaling 的幂律有效性。论文给出的幂律公式非常简洁:性能 ≈ C × R^α,其中 R 为有效推理步数,α 为幂律指数,α 越高说明扩展效率越高。不同任务的 α 值分别为:MATH 0.28、HumanEval 0.22、HotpotQA 0.17、ALFWorld 0.21,而传统参数 Scaling 的 α 值仅为 0.12—0.18,也就是说 Agentic Scaling 的扩展效率是传统路线的 1.5—2.3 倍。

最有冲击力的实验结果是:7B 模型 32 步推理在 MATH 上准确率达 68%,比 70B 模型 1 步推理的 49% 高 19 个百分点,计算投入仅为 70B 模型的 1/3。这直接打破了「只有大参数模型才能做复杂任务」的固有认知。

2025 年大规模对比实验:没有银弹,但有最优策略

2025 年 12 月,一项覆盖 8 个开源 LLM(7B 到 235B)、超过 300 亿 Token 的大规模对比实验给出了更严谨的结论:没有单一的推理时计算扩展策略能在所有场景通吃,但最优性能随计算预算单调递增。具体发现包括:

  • 推理模型在不同难度级别的问题上呈现截然不同的扩展模式——简单题额外推理收益很小,难题收益显著;
  • 即使有完美验证器,在部分任务上传统模型仍无法匹配 o1 这类原生推理模型,说明训练阶段的推理能力内化仍然不可替代;
  • 3B 模型通过优化推理时计算策略超过了 405B 模型(MATH-500)、7B 模型超过了 o1 和 DeepSeek R1(数学推理)——小模型在推理时计算上的性价比被进一步证实。

产品级落地案例

理论之外,产品级的验证同样密集:

产品/模型核心指标扩展方式
OpenAI o1(2024)MATH 42% → 83%,参数规模无明显增长推理步数扩展至数十级
OpenAI o3(2025)ARC-AGI 88%;比 o1 减少 20% 重大错误推理时计算动态扩展 + 工具调用
OpenAI o4-mini(2025)AIME 2025 pass@1 达 99.5%(同级别最优)推理步数 + 工具访问
DeepSeek R1(2025)AIME 2024 79.8%、MATH-500 97.3%、Codeforces 96.3 百分位纯 RL 训练 + 推理时链式思考
AlphaCode 2(2024)Codeforces 前 50% → 前 15%,参数不变16 步代码生成 + 验证
ATLAS(4B)(2026)接近前沿 Agent 性能强化微调 + 可学习上下文控制 + 程序化工具编排

值得单独说说 DeepSeek R1:它通过纯强化学习(不依赖监督微调)在基座模型上激发了推理能力,模型自发涌现出自我验证、反思、纠错等行为。这证明了 Agentic Scaling 的核心假设——推理行为不需要人工标注就能被训练出来,大幅降低了数据标注成本。更关键的是,R1 的研究还发现了推理的「甜区」:超过一定推理步数后,性能不升反降,这为 Agentic Scaling 的上限问题提供了重要的实证约束。

我们把 Agentic Scaling 和传统两条路线做维度化对比:

对比维度传统参数 Scaling任务级微调Agentic Scaling
核心扩展变量参数规模/训练计算量微调数据量/微调步数有效推理步数/工具调用次数
计算投入阶段训练期占 90%训练+微调期占 80%推理期占 60%+
跨任务泛化性通用特定任务最优,跨任务掉点 15—30%通用,复杂任务增益比简单任务高 2 倍
单位 Flops 性能增益(MATH,2024 数据)0.3%/PFlops1.2%/PFlops3.7%/PFlops
边际收益衰减周期18 个月6 个月预估 36 个月以上

Agentic Scaling 的单位 Flops 性能增益是传统参数 Scaling 的 12 倍以上,是任务微调的 3 倍以上,边际收益衰减周期是传统路线的 2—6 倍。

多智能体扩展:从直觉到定量科学

2025 年底 Google Research 发表的「Towards a Science of Scaling Agent Systems」标志着 Agentic Scaling 进入了多智能体维度的定量研究阶段。这篇论文通过 180 种受控配置、覆盖 5 种典型架构(单智能体、独立并行、集中协调、去中心化、混合),首次给出了多智能体扩展的定量规律,结论对工程落地非常有指导意义:

核心发现一:「加人不一定好使」。多智能体协调的效果高度依赖任务类型——可并行的任务(如金融推理)加集中协调性能提升 80.8%,而顺序推理任务加任何多智能体方案性能反降 39%—70%。这个结论打破了「多 Agent 一定比单 Agent 强」的朴素假设。

核心发现二:三条定量规律

  1. 工具—协调权衡:工具密集型任务在固定计算预算下,多智能体开销会不成比例地吞噬性能增益。
  2. 能力饱和效应:当单智能体基线性能超过约 45% 时,协调带来的边际收益转负(β̂ = −0.404,p < 0.001),再加人不如提升个体能力。
  3. 拓扑依赖的误差放大:独立并行的智能体会把错误放大 17.2 倍,集中协调可以把放大控制在 4.4 倍——架构选择直接决定了系统的鲁棒性。

核心发现三:可预测。基于上述规律构建的预测框架,在保留集上能正确预测 87% 配置的最优协调策略,在 GPT-5.2 上的跨模型验证 MAE 仅 0.071,说明这些定量规律具备跨模型泛化能力。

这项研究的意义在于:它把多智能体扩展从「经验调参」推进到了「定量科学」阶段,工程团队可以根据任务类型直接查表选择最优架构,而不是靠试错。

工程落地的权衡与坑:不是随便加步数就行

从实验室到工业落地不是简单套公式就行,目前行业已经踩了不少坑,也形成了一系列通用的权衡方案,这些都是你落地时必须要考虑的现实约束。

轨迹漂移问题

多步迭代中每步的小误差会累积,如果没有加每步校验,步数超过 8 步后准确率反而会下降。DeepSeek R1 的研究进一步证实了推理存在「甜区」:超过最优步数后性能不升反降。行业现在的通用权衡方案是:每步校验会增加 15% 的单步开销,但可以减少 70% 以上的无效计算,所以对 ≥ 3 步的任务强制加中间校验。

长尾延迟问题

如果无限制给复杂样本分配步数,会导致长尾请求延迟超过 10s,根本没办法落地 ToC 产品。当前行业通用的最大步数阈值为 16 步,可以将平均延迟控制在 2s 以内,同时覆盖 99% 的复杂任务增益。如果是 ToB 的离线任务,比如批量代码审计、批量数学题求解,阈值可以放宽到 32 步,但 ToC 场景目前 16 步是最优平衡点。

蒸馏遗忘问题

仅用 Agent 轨迹蒸馏会导致基础模型的通用能力下降 5—10%,毕竟你给模型喂的都是特定任务的轨迹,会稀释它的通用知识。行业的通用解决方案是:蒸馏时混合 10—20% 的通用预训练数据,就可以把通用能力损失控制在 2% 以内。DeepSeek 的实践验证了这一点:他们在蒸馏 R1 到小模型时混合了通用数据,小模型在保持推理能力的同时基本没有丧失通用能力。

多智能体开销问题

Google Research 的实证数据给出了明确的量化约束:当单智能体基线性能已经超过 45% 时,多智能体协调大概率带来负收益。工程建议是:先把单 Agent 推到极限,只有当任务天然可并行、且单 Agent 基线低于 45% 时,才考虑引入多智能体架构;同时优先用集中协调而非独立并行,以将误差放大控制在 5 倍以内

争议与开放问题:离完全落地还有哪些坎

即便已经有了这么多实证结果和落地案例,Agentic Scaling 至今还有不少争议和未解决的问题,这也决定了它未来的落地边界。

路线分歧仍然存在。OpenAI 和 DeepMind 一派认为 Agentic Scaling 的边际收益至少可以维持 3—5 年,是下一代扩展定律的核心;而 Yann LeCun 等一派认为它的增益存在天花板,步数超过 32 后验证器开销会指数上升,边际收益将低于传统 Scaling。DeepMind 自己的论文也提到,步数超过 32 后 α 值会下降到 0.1 以下,确实收益会低于传统参数 Scaling。2025 年大规模对比实验也确认了这一点:即使有完美验证器,传统模型在部分任务上仍无法匹配原生推理模型,说明推理时扩展不能完全替代训练阶段的能力内化。

产品化路线仍在博弈。一派以 OpenAI 为代表,选择把 Agentic 能力蒸馏进基础模型,用户完全不需要感知推理步数,比如 o3 你只要调用就行,不用管它用了多少步;另一派以 Anthropic 和开源厂商为代表,选择做成推理期可选付费服务,用户可以按需求购买更多推理步数。目前两种路线的投入产出比还没有定论。

三个核心开放问题

  1. 验证器的通用性瓶颈:当前 Agentic Scaling 仅在有明确验证信号的任务(推理、代码、数学)上有效。开放域创作、情感交互等没有明确校验标准的任务,还找不到通用的轨迹有效性判别机制,暂时没办法扩展到这类任务。
  2. 多智能体协作的扩展天花板:Google Research 的研究证明,多智能体规模超过阈值后,通信与协调开销急剧上升,顺序推理任务甚至出现性能倒退。目前对于何时该用多 Agent、用几个、用什么拓扑,已经有了初步定量框架,但远未成熟。
  3. 小模型的推理上限:虽然 3B 模型在特定基准上超过了 405B 模型,但 Microsoft Research 的大规模评估显示,在部分复杂任务上小模型即使加满推理计算也追不上大模型,说明基座能力仍然是推理时扩展的底线。

对行业的影响:成本结构和产品逻辑都会被重构

不管争议如何,Agentic Scaling 已经展现出了远超传统路线的性价比,它对整个大模型行业的影响已经开始显现,核心会带来四个层面的变化。

第一,大模型厂商的成本结构被彻底重构。之前大模型厂商 90% 的成本都在训练阶段,拼的是谁能烧得起钱堆参数;Agentic Scaling 模式下 60% 以上的成本在推理阶段,厂商的核心竞争力变成推理优化、验证器研发、动态资源调度能力。2026 年推理工作负载预计占全部 AI 计算的三分之二,这个比例本身就说明了行业重心的转移。

第二,产品定价模式发生变化。现在大模型的定价都是按 Token 收费,未来会变成按推理步数、工具调用次数分级收费:普通查询 1 步推理,按普通 Token 价格收费;复杂推理需要 16 步,价格可能是普通的 5—10 倍;需要调用工具的任务还要额外收工具调用费。OpenAI 的 o3 已经在实践这种模式——它可以「智能体式地使用和组合 ChatGPT 内的所有工具」,按需动态调配推理资源。

第三,开源模型的性价比大幅提升。之前开源模型的劣势就是参数规模小,复杂任务性能不如闭源大模型,但现在 7B 模型用 Agentic Scaling 就能超过 70B 的静态模型,3B 模型可以在特定任务上超过 405B 模型。DeepSeek R1 的开源发布进一步拉低了推理模型的门槛——671B 的 MoE 模型和 6 个蒸馏小模型全部开源,开发者可以直接在此基础上构建 Agentic 应用。

第四,工程方法论从「炼丹」转向「系统设计」。Google Research 的多智能体扩展研究表明,Agent 系统的性能不再只取决于模型本身,架构选择、协调机制、任务分解策略同样重要。ATLAS(微软,2026)进一步证明 4B 的小模型通过合理的强化微调和工具编排就能接近前沿 Agent 性能。这意味着 AI 工程师的核心技能从「调超参训模型」转向「设计推理系统」,系统架构能力的权重会越来越高。

小结

回到核心判断:Agentic Scaling 将在未来 3 年内替代传统参数/计算 Scaling 成为大模型性能提升的主要来源,其带来的单位计算性能增益将是传统 Scaling 的 3 倍以上,会重构大模型厂商的成本结构和产品定价模式

2024 年 DeepMind 证明了幂律有效性,2025 年 OpenAI o3、DeepSeek R1 完成了产品级验证,Google Research 推进了多智能体扩展的定量科学,2026 年 ATLAS 等工作把门槛拉到了 4B 级别。路径已经跑通,关键变量正在快速收敛。

但我们也必须清醒:推理「甜区」的存在意味着步数扩展不是万能的,验证器的通用性瓶颈限制了适用场景,多智能体协作的定量规律还在早期。这条路线的潜力能释放多少,最终取决于验证器技术和系统工程的进展速度。

留给你的问题是:如果推理时计算成为新的稀缺资源,你的团队是在优化推理效率,还是还在堆训练参数?

参考资料

  1. DeepMind, "Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters", 2024.
  2. OpenAI, "Introducing OpenAI o3 and o4-mini", 2025. https://openai.com/index/introducing-o3-and-o4-mini
  3. DeepSeek AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning", arXiv:2501.12948, 2025.
  4. Google Research, "Towards a Science of Scaling Agent Systems", arXiv:2512.08296, 2025.
  5. Microsoft Research, "Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead", 2025.
  6. "The Art of Scaling Test-Time Compute for Large Language Models", arXiv:2512.02008, 2025.
  7. Microsoft et al., "ATLAS: Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces", arXiv:2603.06713, 2026.
  8. Zylos Research, "AI Reasoning Models 2026: From OpenAI o3 to DeepSeek-R1 and the Test-Time Compute Revolution", 2026.

本文部分内容由 AI 辅助生成,经人工审校和补充后发布。