Skip to content

从 RAG 到上下文工程:AI 工程的重心,正从“调模型”转向“策展上下文”

AI 趋势观察 · 检索范式 × 上下文工程 | 2026 年 5 月 | 约 15 分钟阅读

从 RAG 到 GraphRAG 再到上下文工程:演进主视觉

最近 IBM Technology 频道上有一期视频,标题平平无奇——《How RAG, GraphRAG, and Context Engineering Improve AI Performance》,主讲人是 IBM 的 Master Inventor Martin Keen。但它讲的事不平常:Keen 全程在推演一条范式演进线,并抛出一个和"参数越多、模型越强"的流行印象相左,却正在被越来越多一线团队认同的判断——

让 AI"做对事"的最大瓶颈,从来不是模型本身,而是它在推理那一刻能触达的上下文。

换句话说,模型的能力上限,不只取决于它有多少参数,更取决于它能实时触达的上下文结构。这句话听起来像句正确的废话,但当你把它和 2024 年以来的一串数据摆在一起看,会发现它正在重写整个 AI 工程的重心:从"调教模型"转向"策展上下文"(from tuning the model to curating the context)。


一、一条被"上下文"串起来的演进线

要理解上下文工程为什么在 2025–2026 集中爆发,得先看清 RAG 这条路是怎么一步步走到"结构"这一站的。

RAG 演进时间线:从 Naive RAG 到 GraphRAG 再到上下文工程

2020 年,RAG(检索增强生成)作为缓解大模型幻觉的第一个工程化方案登场。逻辑很朴素:与其让模型凭"想象"作答,不如先从外部知识源检索真实文档塞进上下文,强迫它基于事实生成。这套"切块 → 嵌入 → 相似度检索 → 生成"的流水线,就是后来被称为 Naive RAG 的范式。它确实把幻觉压下去了一截,于是几乎成了所有 LLM 应用的标配。

但工程师很快撞上天花板。一份 2024 年的综合 RAG 基准测试给出了一个让人清醒的数字:最先进的 RAG 系统也只能正确回答 63% 的事实型问题;朴素 RAG 只有 44%;而完全不做检索的 LLM 约为 34%。检索确实有用,可"切块 + 相似度"这条路,远没有想象中可靠——尤其是当问题需要跨文档连接、需要对整个语料做全局判断时。

2024 年,Microsoft Research 在论文《From Local to Global: A GraphRAG Approach to Query-Focused Summarization》中提出 GraphRAG,并于同年 7 月开源。它的核心洞察一针见血:朴素 RAG 把文档当成一堆"互不相识的孤立碎片",无法回答需要连接关系、需要全局综合的问题。GraphRAG 用知识图谱(实体为节点、关系为边)替代扁平的文本块,让模型"在结构上推理",而不是"在文本上搜索"。

2025 年 6 月,应用 AI 领域两个最有分量的声音——Andrej KarpathyShopify CEO Tobi Lütke——几乎同时公开表态:我们该用的词不再是 prompt engineering,而是 context engineering(上下文工程)。Lütke 的定义是"为任务提供全部上下文,使其对 LLM 而言变得可解";Karpathy 则称它是"填充上下文窗口的微妙艺术与科学"。三个月后的 2025 年 9 月 29 日,Anthropic 应用 AI 团队发博客把这个概念正式经典化,定义为"在推理期间,为达成期望结果而策展与维护最优 token 集合的一整套策略"。

至此,从 RAG 到 GraphRAG 再到上下文工程的演进线被彻底打通。Martin Keen 这期视频,正是站在这条线的终点回望全程。


二、先把四个词的边界画清楚

这四个词常被混着用,但它们处在不同的抽象层级,不画清边界后面会打架。

关键的层级关系是:Naive RAG、Advanced RAG、GraphRAG 是三种"检索范式",而上下文工程是包裹它们的"上层工程学科"。检索只是上下文工程的一个环节——上下文工程还要管系统指令、工具定义、对话历史、记忆、输出格式与治理。Keen 在视频里把"精确检索"(含 GraphRAG 与上下文压缩)列为上下文工程的支柱之一,正是这个意思。

三种 RAG 的硬性差异如下:

维度Naive RAGAdvanced RAGGraphRAG
数据表示文本块 + 嵌入文本块 + 嵌入 + 元数据节点 + 边(+ 嵌入)
检索方式向量相似度混合检索 + 重排序图遍历(+ 向量)
查询变换多查询、HyDE 等实体抽取 + Cypher
多跳推理不支持勉强支持
全局理解不支持勉强支持(社区摘要)
实现难度很高
索引成本高(LLM 三元组抽取)
最适数据通用文档、FAQ技术文档、内部 Wiki人、组织、事件、关系

这张表最该带走的一点是:它们不是"谁取代谁",而是"何时用谁"。 Keen 反复强调,标准 RAG 处理简单查找("退货政策是什么?")依然高效;只有当问题需要跨文档连接关系、需要对整个语料做主题综合时,才值得请出 GraphRAG 或上下文压缩这类更重的武器。一个好用的判断启发法是:如果一个人类专家读一篇文档就能答,用向量 RAG;如果他得读十篇、还要自己连线,才用 GraphRAG。

而上下文工程的独特视角在于,它不问"怎么检索得更准",而问 Anthropic 那句被反复引用的话:找到"能最大化期望结果概率的、最小的高信号 token 集合"。这句话点破了一个反直觉的事实——更多上下文 ≠ 更好结果。后面会看到,这一点有硬数据撑腰。


三、GraphRAG:结构如何战胜规模

GraphRAG 的工作流可以拆成三个阶段,其中第二阶段才是它真正的"结构性贡献",也是最容易被教程跳过的部分。

阶段一,抽取(构建图谱)。 先定义一个本体(ontology),告诉 LLM 该抽哪些类型的实体和关系。然后 LLM 逐块阅读文档,抽出"实体—关系—实体"三元组——一条评论"我的充电器用了两个月就坏了"会变成 (某充电器, 存在问题, 耐久失效)。处理完整个语料后,所有文档里对同一个品牌的提及都会解析到同一个节点。你得到的不再是一堆孤立碎片,而是一张语料级的关系地图

阶段二,社区检测(架构核心)。 抽取完你会得到一张庞大杂乱的关系网。这时用社区检测算法(Microsoft 的实现用 Leiden 算法),把图切成一层层"内部紧密连接、对外松散连接"的实体簇,再由 LLM 为每个簇写一份摘要。这些摘要成为回答全局问题的索引——据原论文,在社区摘要层查询所消耗的 token,仅为直接阅读原始文档的约 2%–3%。你不再扫描 500 条评论,而是阅读 20 份蒸馏后的社区摘要。这一步是 GraphRAG 能回答"整个数据集的主题是什么"这类问题的关键。

阶段三,查询(局部 vs 全局)。 GraphRAG 有两种查询模式,用错是最常见的部署失误。局部搜索从查询出发找到最近实体,沿边遍历收集上下文,适合针对具体实体的问题;全局搜索对所有社区摘要做 map-reduce,每份摘要生成局部答案再综合,适合宏观主题问题。把这两种模式用反,效果会差得离谱。

GraphRAG 三阶段工作流:抽取、社区检测、双模查询

这套机制的威力,体现在一个反复被引用的数字上:在需要全局综合的问题上,人类评审偏好 GraphRAG 答案的比例达到 72%–83%;综合性比传统向量 RAG 高 50%–70%。最值得玩味的是,这个提升用的是同一个底层 LLM——仅仅因为"看到的信息被组织成了图",答案质量就出现了断层式跃升。这正是 Keen 那句"瓶颈在上下文结构"的最佳注脚。


四、上下文工程:四大支柱与"少即是多"

如果说 GraphRAG 是"精确检索"这根支柱里的明星技术,那么 Keen 在视频里给出的上下文工程四大支柱,则是托起整个可靠 AI 系统的完整骨架。

第一根是连接访问:让模型能实时触达分散在各处的企业数据,而非依赖训练时被"烧进"参数的静态知识。第二根是知识层:用知识图谱等结构映射实体关系,把机构知识组织成可推理的形态。第三根是精确检索:在海量数据里只取最相关的部分,简单场景用标准 RAG,复杂场景用 GraphRAG 与上下文压缩。第四根是运行时治理:在推理时刻管控权限、合规、数据泄露边界,让上下文不仅"对",而且"合规可审计"。

上下文工程四大支柱:连接访问、知识层、精确检索、运行时治理

Anthropic 则从"为什么必须这么做"的角度补足了原理。它的博客提出一个概念叫 context rot(上下文腐烂):随着上下文窗口的 token 数增加,模型从中准确召回信息的能力反而下降。根本原因在 Transformer 架构——n 个 token 会产生 n² 对两两关系,上下文越长,模型的"注意力预算"被摊得越薄。所以上下文必须被当作有限资源、边际收益递减来对待,而不是"窗口越大越好"。

这就引出了上下文工程里最反直觉、也最有产业意义的一个实验结论。Anthropic 在多智能体研究中发现:与其把全部上下文塞给一个"大脑很大"的单智能体,不如让每个子智能体只拿到经过仔细裁剪、范围明确的上下文窗口——后者在复杂多步研究任务上的表现高出 90% 以上。用他们自己的话说,"团队是靠隔离上下文赢的,不是靠最大化上下文。"

为了对抗上下文腐烂、维持长程任务的连贯性,Anthropic 给出三种已在 Claude Code 中落地的技术,可以和 LangChain 提出的 Write / Select / Compress / Isolate 四策略对照着看:压缩(Compaction),把接近窗口上限的历史总结后重启新窗口,最轻量的一种是工具调用完成后就把原始结果从历史里清掉;结构化记笔记,让智能体把笔记写到上下文窗口之外(如 NOTES.md),需要时再读回;子智能体架构,主智能体做高层规划,子智能体在各自洁净的上下文里干深活,只回传 1000–2000 token 的精炼结论。

落到产品上还有一个很能说明问题的数字:Anthropic 在 2026 年 4 月 23 日上线智能体记忆能力后,早期客户 Rakuten 报告其智能体错误率下降了 97%。把"跨会话知识"从"实时上下文窗口"里解耦出去,本身就是一次典型的上下文工程胜利。


五、把数据收拢成一张表

讲到这里,散落的数字该收拢了。下面这张表是全文的定量骨架:

主题关键数据来源
朴素 RAG 的天花板SOTA RAG 仅答对 63% 事实问题;朴素 RAG 44%;无检索 34%2024 综合 RAG 基准
GraphRAG 偏好率全局综合问题上人类偏好 72%–83%Microsoft Research
GraphRAG 综合性提升比向量 RAG 高 50%–70%Microsoft Research
LazyGraphRAG 降本索引成本降至全量的约 0.1%,查询成本降至约 4%Microsoft 官方博客
多智能体隔离上下文复杂任务表现提升 >90%Anthropic
记忆能力效果Rakuten 错误率下降 97%Anthropic / Rakuten
行业认知转变82% IT/数据负责人认为"仅靠 prompt 已无法支撑规模化 AI"2026 State of Context Management Report
生产部署现状57% 组织已有 Agent 上线,32% 把"质量"列为扩展首要障碍LangChain 2025 报告

这里要单独说一下成本。GraphRAG 早期有个致命门槛:全量索引一份大型企业语料,一次最高可能烧掉约 3 万美元,仅实体抽取一步就占总索引成本的约 75%。这把绝大多数中小团队挡在了门外。Microsoft 随后推出 LazyGraphRAG,把社区摘要的生成从"索引时预计算"推迟到"查询时按需进行",使索引成本骤降到全量的约 0.1%(与标准向量 RAG 持平),全局查询成本降到约 4%。在某些工程化实现里,那 3 万美元的索引账单被压到了约 30 美元。代价是查询延迟变高,但"贵到玩不起"这个门槛基本被抹平了。


六、对从业者和企业,这意味着什么

这一节切换到 ICE 的观察视角:撇开技术细节,看看这条演进线对不同人群到底意味着什么。

🔧 技术视角:最值钱的技能从"措辞"变成了"信息架构"。 据报道,Gartner 把上下文工程列为 2026 年的突破性 AI 能力;2026 State of Context Management Report 显示 82% 的 IT 与数据负责人认为仅靠 prompt 已无法支撑规模化 AI。新兴的核心技能不再是写漂亮的提示词,而是四类硬功夫:信息架构(决定哪些上下文重要、怎么组织)、检索系统设计、状态管理(跨会话与跨智能体的记忆)、token 经济学(在固定预算下分配竞争性需求)。一个正在形成的范式叫"上下文即代码"——把上下文配置当作版本化、可测试的产物来管理,就像基础设施即代码改造了 DevOps。

🏢 落地视角:Agent 上不去生产,问题往往不在模型,而在"上下文装配"。 多份生产部署分析指出,2026 年 Agent 落地的主导失败模式既不是选错模型,也不是 prompt 太弱,而是糟糕的上下文装配——模型在该做决策时拿到了错误的、过量的或陈旧的信息。LangChain 的报告也佐证:57% 的组织已有 Agent 上线,但 32% 把"质量"列为扩展的首要障碍。这把可观测性(追踪 token 消耗、定位上下文失效)从"加分项"推成了"必修课"。

🔒 合规视角:治理必须在推理时刻就生效。 Keen 把"运行时治理"列为四大支柱之一并非装点门面。当模型能实时触达企业全量数据时,权限边界、合规约束、数据泄露防护就不能事后补——必须在组装上下文、调用工具的那一刻就生效。这让上下文工程天然地和企业安全、审计、合规团队绑在一起,尤其在多方数据协作、隐私计算这类强约束场景下,"哪些数据能进上下文、进了能不能留痕"会直接决定一个 AI 系统能不能上线。

🇨🇳 本土视角:结构化的门槛正在向中小团队开放。 LazyGraphRAG 把 GraphRAG 的入门成本从 3 万美元压到约 30 美元,意味着国内做行业知识库、法规问答、企业内部 Wiki 的团队,已经可以用 Microsoft GraphRAG 开源框架 + Neo4j 社区版先跑通一个 POC,再决定要不要上全量。对手握大量非结构化行业文档、却苦于"向量检索答不准复杂问题"的国内企业来说,这是一个时机已到的方向。


七、想动手,从哪开始

落地不必一步到位。一条被多方验证的渐进路线是:先用 4–6 周做 POC——选一个边界清晰的知识库(内部技术手册或法规文档),用开源框架搭端到端原型,配 Neo4j 社区版验证图质量与查询效果;确认架构确实改善了你的查询模式后,再进入试运行,补上增量索引流水线、查询路由层(自动判断局部/全局并分派)和质量监控;最后才上生产级集群、成本优化、完整审计日志与访问控制。一个省钱提示:先用 LazyGraphRAG 验证,再迁移到全量 GraphRAG,别一上来就烧那 3 万美元的索引账单。

几个最容易踩的坑值得提前记下:一是实体解析失败,"某品牌"的多种写法没合并成同一节点,会让图谱碎片化、答案漏掉关键连接,抽取后必须做去重 pass;二是查询模式用反,局部/全局搞混是头号部署失误;三是压缩过度,Compaction 太激进会丢掉"当下不起眼、事后才关键"的上下文,正确做法是先最大化召回再迭代提升精度。

还有一个绕不开的基础设施:MCP(Model Context Protocol)。它在 2024 年 11 月由 Anthropic 开源,2025 年 3 月被 OpenAI 采纳,2025 年 12 月移交 Linux 基金会,注册表已有约 2000 个服务器,正在成为"智能体—工具/上下文接入"的事实标准。工程上的建议很务实:把 MCP 服务器当作依赖来管理,锁版本、审计提供方。


结论

如果只带走几句话,我希望是这些:

  • 结构是 LLM 的免费午餐。 同一个模型,仅仅因为信息被组织成知识图谱而非扁平文本块,答案质量就能跃升 50%–70%。很多团队花在"换更大模型"上的钱,本可以用更便宜的"重构上下文结构"省下来。
  • 更多上下文会主动伤害性能。 context rot 与 n² 注意力预算的存在,使"塞满百万 token 窗口"成了反模式。Anthropic 的多智能体实验给了最锋利的反证:隔离上下文比最大化上下文好 90% 以上。判断一个 AI 系统是否成熟,要看它敢不敢做减法
  • 瓶颈从模型层上移到了平台层。 上下文工程里最高杠杆的动作(压缩、工具结果清理、记忆)都是平台级能力,而非应用级技巧。这把"该招最会写 prompt 的人"变成了"该投资哪个平台团队把上下文当一等公民来运营"——一个总监及以上级别的预算议题。
  • 行动建议:如果你手上有"答不准复杂关系问题"的 RAG 系统,先用 LazyGraphRAG 低成本验证 GraphRAG;如果你在做多步 Agent,先把上下文做减法(压缩 + 隔离)再谈换模型。

回到 Keen 那句话——Context is the biggest bottleneck in getting AI to do what you want.(上下文,是让 AI 听话的最大瓶颈。)下次你的 AI 又给出一个"听起来很对、其实全错"的答案时,不妨先别急着怪模型:你真的确定,问题不是出在你喂给它的那一坨上下文结构上吗?