Agent Composition：拆掉你的单体 Agent

你的 Agent 是不是越做越烂？

你一定经历过这个过程：第一版 Agent 只用一段 System Prompt 加几个工具，效果惊艳。然后需求来了——要处理更多类型的输入、要调用更多 API、要记住更长的上下文。你往 prompt 里塞更多指令，注册更多工具，上下文窗口开始吃紧，偶尔吞掉关键信息，调试变成在几千 token 的日志里大海捞针。

这不是你的问题。单体 Agent 的架构天花板就在那里。 一个模型、一段 prompt、一个循环，处理从接收到交付的全部流程——这种结构在任务复杂度超过某个临界点后必然崩溃。

Agent Composition 就是对这件事的回应：别让一个 Agent 干所有的活，把它拆开。

这个想法是怎么长出来的

"组合优于继承"在软件工程里是老生常谈，但 AI Agent 领域直到 2024 年底才认真对待这件事。

转折点是 Anthropic 在 2024 年 12 月发的一篇博客：Building Effective Agents。这篇文章没有推销任何框架，而是说了一句让整个行业冷静下来的话：

"The most successful implementations weren't using complex frameworks or specialized libraries—they were building with simple, composable patterns."

翻译一下：那些真正跑在生产环境里的 Agent，用的不是什么花哨框架，而是 简单的、可组合的模式。

Anthropic 在文中画了一条清晰的线：Workflow（你写代码来编排 LLM）和 Agent（LLM 自己决定下一步干什么）是两回事。前者可预测、成本可控；后者灵活但难以调试。大多数任务应该用 Workflow，只有真正开放性的问题才需要让模型自主驾驶。

这篇文章定义了五种 Workflow 模式。后来发生的一切——LangGraph 的状态图、CrewAI 的角色团队、OpenAI 的 Handoff 机制——本质上都是在用不同的工程方式实现这五种模式。

时间线上的其他关键节点：

2025 年中，LangGraph 加入 checkpoint（可回滚的状态快照）和分布式追踪，CrewAI 推出 Flows 做状态管理，AutoGen 完成 v0.4 大重写转向 actor 模型。多 Agent 框架从"能跑 demo"走向"能上生产"。
2025 年 11 月，Anthropic 把 MCP 协议捐给 Linux 基金会。Google、Microsoft、OpenAI 全部加入。从此 Agent 连接工具有了统一接口，不用再为每个框架写一套适配器。
2026 年 4 月（就是现在），Anthropic 发布 Managed Agents，OpenAI 更新 Agents SDK。两家同时在做一件事：把 Agent 的"脑"和"手"分开部署。 Agent Composition 从设计模式变成了基础设施。

六种模式，一棵决策树

Anthropic 定义的这套模式已经成了行业通用语言。不用背，用的时候对着选就行。

六种 Agent Composition 模式一览

① Prompt Chaining——流水线

最简单的组合：A 的输出喂给 B，B 的输出喂给 C。中间可以插代码做校验。

什么时候用： 任务能拆成固定的线性步骤。比如"写文案 → 翻译 → 格式检查"。

② Routing——分拣

先判断输入属于哪一类，再把它扔给对应的专家处理。

什么时候用： 输入类型多样，处理逻辑完全不同。典型的客服场景：退款走退款 Agent，技术问题走技术 Agent，闲聊走兜底。

③ Parallelization——并行

同一时间让多个 LLM 各干各的，最后由程序把结果拼起来。两种玩法：分片（把任务切成不重叠的块）和投票（同一个任务交给多个模型，取多数结果）。

什么时候用： 子任务之间没有依赖，或者你需要用"多数决"来提高判断可靠性。内容审核就是经典场景——一个模型看暴力、一个看色情、一个看政治敏感，各自独立打分。

④ Orchestrator-Workers——指挥官 + 士兵

一个中央 Agent 拿到任务后，动态地决定要拆成几个子任务、分别交给谁做，收到结果后综合出最终答案。

它和并行化长得像，但有本质区别：并行化的子任务是你提前定好的，Orchestrator-Worker 的子任务是模型临时规划的。

什么时候用： 你事先不知道任务会分解成什么样。写代码就是典型——要改哪些文件、改多少，完全取决于 issue 的内容。

Anthropic 自己的 Research 功能就用这个模式。Lead Agent 分析用户查询后 spawn 多个 Subagent 并行搜索不同方向，最后综合。他们的工程博客把这个过程写得很透：

"Multi-agent systems work mainly because they help spend enough tokens to solve the problem."

多 Agent 有效，本质上是因为让系统花了足够多的 token。架构的价值不在于"更聪明"，而在于让 token 花到了对的地方。

⑤ Evaluator-Optimizer——生成-评审循环

一个 LLM 负责生成，另一个负责挑毛病，来回迭代直到质量达标。

什么时候用： 你有明确的好坏标准，而且一次生成很难直接达到。代码生成（写 → 跑测试 → 修 → 再跑）、翻译润色都是典型场景。

⑥ 自主 Agent——放手让模型自己来

LLM 在循环里自主决定下一步：调工具、看结果、决定继续还是停。最灵活，也最不可控。

什么时候用： 问题完全开放，你没办法提前画流程图。但要注意——Anthropic 和 OpenAI 都反复警告：大多数任务不需要走到这一步。

怎么选？

任务能拆成固定的线性步骤？
├── 能 → ① Prompt Chaining
└── 不能 → 输入类型多样、需要不同处理？
    ├── 是 → ② Routing
    └── 否 → 子任务独立且数量已知？
        ├── 是 → ③ Parallelization
        └── 否 → 子任务结构取决于输入？
            ├── 是 → ④ Orchestrator-Workers
            └── 否 → 有明确评估标准？
                ├── 是 → ⑤ Evaluator-Optimizer
                └── 否 → ⑥ 自主 Agent

一条最重要的原则：从上往下选，能用简单的就别用复杂的。 每多一层编排，就多一层可能出错的地方。

Anthropic 和 OpenAI 各自押注了什么

Anthropic：把 Agent 当操作系统来设计

Anthropic 走得最远。他们不只是发了一篇博客定义模式，还在自己的产品里验证了这些模式，然后把验证结论也公开了。

他们的 Research 功能用 Orchestrator-Worker 架构：Claude Opus 4 当 Lead，Sonnet 4 当 Subagent。跑了大量数据后发现三件事：

多 Agent 有效主要是因为花了更多 token——不是架构更聪明，而是让系统有预算去探索更多方向。
升级模型比加 token 预算更划算——从 Sonnet 3.7 换到 Sonnet 4 的提升，比在同一模型上翻倍 token 还大。
不是所有任务都适合多 Agent——广度搜索（多方向并行探索）效果好，编码任务效果一般，因为后者很少有真正可并行的方向。

2026 年 4 月，他们更进一步，发布了 Managed Agents 服务，提出 Brain / Hands / Session 三层解耦：

Brain / Hands / Session 三层解耦架构

Brain（脑）：Claude + 编排逻辑。无状态，可随时替换。
Hands（手）：沙箱容器，执行工具调用。与 Brain 隔离，崩了不影响状态。
Session（记忆）：只追加的事件日志。Brain 崩了换一个接着跑，因为记忆在外面。

这套架构让 p50 首 token 延迟降了 ~60%，p95 降了超过 90%。思路和操作系统把进程、文件系统、I/O 分层一样——做过系统编程的人会觉得似曾相识。

OpenAI：两种委托哲学

OpenAI 的 Agents SDK 实现了两种编排原语，分别对应两种管理哲学：

Handoff（交接）：控制权完全移交给专家 Agent。适合专家应该直接面对用户的场景，比如客服分流——退款问题交给退款 Agent 后，它全权负责。

Agent-as-Tool（专家当工具用）：Manager Agent 保持控制权，把专家当函数调用。适合 Manager 需要综合多个专家结论的场景。

OpenAI 文档里反复出现一句话值得记住："Add specialists only when the contract changes." 只有当一个新 Agent 确实需要不同的 prompt、不同的工具或不同的权限时，才值得拆出来。过早拆分只会制造更多 prompt、更多 trace、更多调试界面。

框架选型：LangGraph vs CrewAI vs AutoGen

如果你不用 Anthropic 或 OpenAI 的一站式方案，而是自己搭，三个框架各代表一种思路：

	LangGraph	CrewAI	AutoGen
一句话	把 Agent 编排当状态机问题	把 Agent 编排当团队管理问题	把 Agent 编排当群聊问题
核心抽象	节点 + 边 + checkpoint	角色 + 任务 + 团队	Actor + GroupChat + 消息总线
最强项	复杂分支、长运行、故障恢复	快速出原型、角色清晰	开放式协作、人机对话
最弱项	学习曲线陡、样板代码多	循环和条件分支难表达	生产治理能力弱

选型经验法则： 默认 LangGraph。如果工作流天然是线性的、角色分工明确，用 CrewAI 出活更快。如果核心场景是多 Agent 之间的开放讨论或人机协同，用 AutoGen。

这三个框架最深层的区别其实就一个问题：状态存在哪里？ LangGraph 存在外部 checkpoint（容器崩了能恢复），CrewAI 存在 Flow 事件流里（事件驱动但粒度粗），AutoGen 存在对话历史里（内存没了就没了）。你对故障恢复的要求有多高，就决定了你该选谁。

这件事对行业意味着什么

第一，"Prompt Engineer"这个角色正在被重新定义。 2025 年之前，核心技能是写好 prompt。2026 年的核心技能变成了设计 Agent 的组合结构——哪些部分用 Workflow、哪些用自主 Agent、状态怎么流转、出错了怎么恢复。Anthropic 给这个新学科取了个名字：Context Engineering。因为他们发现，Agent 的大多数失败不是模型不行，而是上下文没给对。

第二，企业需要 Agent 平台团队。 当你从"一个 Agent 解决一个问题"走向"十几个 Agent 协同处理业务流程"，编排层、观测层、治理层就不再是可选项——它们变成基础设施。Bain 的 2026 年报告直接把这三层定义为 Agentic AI 平台的核心架构。

第三，安全攻击面在扩大。 Anthropic 在 2026 年 4 月的 Trustworthy Agents in Practice 中提了一个重要观点：Agent 的行为不只取决于模型，而是 Model + Tools + Harness + Environment 四层共同决定的。Agent Composition 让每一层都可以独立审计，但也意味着攻击面从"一段 prompt"扩展到了"一个分布式系统"。

接下来会发生什么

Harness 标准化正在发生。 Anthropic 的 Brain/Hands/Session 和 OpenAI 的 Manifest 抽象长得越来越像。2026-2027 年可能出现跨厂商的 Agent 运行时标准——就像容器世界的 OCI。

Agent 之间的通信还没标准化。 MCP 解决了 Agent 连接工具的问题，但 Agent 跟 Agent 之间怎么对话？Google 的 A2A 协议在推，但还没到 MCP 的共识程度。这是下一个待收敛的碎片化问题。

组合本身会变得可学习。 现在的 Agent Composition 是人手动设计的。但如果每次组合的效果都有评分记录（GitHub 上的 Agency 框架已经在做这件事），系统就可以自动学习"哪些组合在什么任务上效果最好"。从手动设计走向自适应组合，这可能是最值得期待的方向。

一句话收尾

Agent Composition 的本质不是"让更多 Agent 一起工作"，而是为不确定性分配结构——让每个 Agent 只面对自己能处理的复杂度，让编排层承担协调的代价，让状态层兜底失败后的恢复。

留给你的问题只有一个：你现在那个越做越烂的单体 Agent，哪一刀最该先切？

参考资料

Anthropic. Building Effective Agents. 2024-12. 链接
Anthropic. How We Built Our Multi-Agent Research System. 2026-04. 链接
Anthropic. Scaling Managed Agents: Decoupling the Brain from the Hands. 2026-04-10. 链接
Anthropic. Trustworthy Agents in Practice. 2026-04-09. 链接
OpenAI. Orchestration and Handoffs. 2026. 链接
OpenAI. The Next Evolution of the Agents SDK. 2026-04-15. 链接
Zhang et al. AgentOrchestra: A Hierarchical Multi-Agent Framework. arXiv:2506.12508. 2025-06.
Bain & Company. The Three Layers of an Agentic AI Platform. 2026-04-02. 链接
Tao An. AI Agent Landscape 2025–2026: A Technical Deep Dive. Medium, 2026-01-05.
Arize AI. Orchestrator-Worker Agents: A Practical Comparison. 2025-09-09. 链接
Hieu Tran. The Agent Stack in 2026. DEV Community, 2026-04.
agentbureau/agency. GitHub, 2026-03. 链接

Agent Composition：拆掉你的单体 Agent ​

你的 Agent 是不是越做越烂？ ​

这个想法是怎么长出来的 ​

六种模式，一棵决策树 ​

① Prompt Chaining——流水线 ​

② Routing——分拣 ​

③ Parallelization——并行 ​

④ Orchestrator-Workers——指挥官 + 士兵 ​

⑤ Evaluator-Optimizer——生成-评审循环 ​

⑥ 自主 Agent——放手让模型自己来 ​

怎么选？ ​

Anthropic 和 OpenAI 各自押注了什么 ​

Anthropic：把 Agent 当操作系统来设计 ​

OpenAI：两种委托哲学 ​

框架选型：LangGraph vs CrewAI vs AutoGen ​

这件事对行业意味着什么 ​

接下来会发生什么 ​

一句话收尾 ​

参考资料 ​