百度胜算:当 Agent 从"聪明的局外人"变成"靠谱的自己人"
Deep Research 报告 · 企业 Agent × 数据智能 × 上下文工程 | 2026 年 5 月 | 约 12 分钟阅读

摘要
2026 年 5 月 15 日,百度智能云在 Create 2026 开发者大会上发布了企业数据智能平台——百度胜算(产品代号 DataBuilder)。这款产品瞄准的不是"让 Agent 更聪明",而是一个更务实的问题:怎么让 Agent 在企业核心业务里不出错。
百度智能云数据平台部总经理刘斌在发布时给出了一个刺痛行业的数据:客户实践反馈,当前 Agent 在企业严肃业务场景中的决策准确率仅 80%-90%,如同一个"聪明的局外人"——什么都懂一点,但没有一样靠得住。百度胜算的目标是把这个数字提到 99%,让 Agent 从边缘辅助走进核心决策。
本文从行业痛点出发,深入拆解百度胜算的技术架构与产品逻辑,分析它所处的竞争格局,并审视其真实挑战。
一、一个行业级问题:Agent 为什么进不了企业的核心地带
李彦宏在 Create 2026 主旨演讲中宣告"超级个体"时代到来,四款智能体产品同时亮相。但在 C 端叙事的光环之外,百度智能云在第二天的分论坛上抛出了一个更尖锐的问题:Agent 在企业核心业务场景中,还不够靠谱。
这不是百度一家的困境,而是 2026 年整个行业的共识。
准确率的"复利陷阱"
前沿模型在单步调用上的准确率已达 95-96%,看起来不错。但企业业务场景的特点是多步链式执行——一个采购决策可能涉及查库存、比价格、核资质、下订单四个步骤,每步 95% 的准确率,四步之后只剩 81%。如果链条更长,准确率的衰减是指数级的:
| 单步准确率 | 3 步后 | 5 步后 | 10 步后 |
|---|---|---|---|
| 95% | 85.7% | 77.4% | 59.9% |
| 90% | 72.9% | 59.0% | 34.9% |
| 99% | 97.0% | 95.1% | 90.4% |
这就是企业级 Agent 的"精度陷阱"[1]:单步看起来够用,链条一长就崩塌。
不只是"答错",而是"做错"
更麻烦的是,企业 Agent 不只是生成答案——它在执行操作。一个采购 Agent 调错系统可能真的会下错单;一个财务分析 Agent 的错误映射会产出完全偏离的报告[2]。在聊天场景里答错一句话的成本接近零,但在企业核心流程里执行错一步的成本可能是百万级的。
这就是为什么 78% 的企业高管已启动 Agent 试点,但只有 14% 进入了生产环境[3]。不是不想用,是不敢用。
三道墙
具体来说,Agent 进入企业核心地带面临三道墙:
- 语义墙:Agent 不懂业务。它能读表结构,但不理解"安全库存"在不同行业意味着什么;能分析数据,但不知道哪个指标在这家公司的语境里更重要。
- 信任墙:没有审计、没有回滚、没有权限控制——企业不可能把核心流程交给一个"黑箱"。
- 执行墙:大多数 Agent 只能读数据、做分析,不能真正触发业务动作。能看不能做,价值天花板很低。
百度胜算想做的,就是拆掉这三道墙。
二、百度胜算是什么
一句话:百度胜算是一个基于业务本体驱动的企业数据智能平台,让 Agent 懂业务、参与决策、安全可控。
它不是一个大模型,不是一个 Agent 框架,而是 Agent 与企业核心业务之间的翻译层和安全层——把企业的数据、规则、流程翻译成 Agent 能理解和执行的语言,同时确保整个过程可追溯、可审计、可回滚。
与相邻概念的边界
| 概念 | 百度胜算的定位 |
|---|---|
| 大模型(文心) | 胜算不是模型,是模型上层的业务理解和执行层 |
| Agent 框架(LangChain 等) | 胜算不做通用编排,专注企业业务语义和安全治理 |
| 传统 BI / 数据中台 | 胜算不只做分析报表,它让 Agent 能直接执行业务动作 |
| 伐谋 2.0 | 伐谋做决策优化(排程、物流),胜算做数据治理和执行基座 |
| Salesforce Agentforce | Agentforce 锚定 CRM 生态,胜算锚定制造/能源/零售等产业场景 |
核心指标
| 维度 | 数据 |
|---|---|
| 发布时间 | 2026 年 5 月 15 日,Create 2026 开发者大会 |
| 行业覆盖 | 20+ 行业 |
| 算子规模 | 370+ 种关系型与多模态算子 |
| 准确率提升 | 复杂场景从 80-90% → 99% |
| 应用场景 | 供应链、门店经营、大模型训练、智驾、RAG、数据中台 |
| 部署方式 | 公有云 + 私有化部署 |
三、核心架构:上下文工程 + 系统工程
百度胜算的技术方案可以用一句话概括:用上下文工程让 Agent 理解业务,用系统工程让 Agent 安全执行。
这两个"工程"不是噱头。"上下文工程"(Context Engineering)已被 Andrej Karpathy 定义为"为下一步决策填充正确信息的精密艺术与科学",被 Shopify CEO Tobi Lütke 视为比 Prompt Engineering 更重要的核心能力[4]。百度胜算是目前国内将这一理念产品化落地最完整的尝试之一。
▲ 基于百度胜算官方产品文档[9]自绘,非官方架构图
上下文工程:三大业务图谱
这是百度胜算最核心的创新。它把企业业务翻译成三张"图谱",让 Agent 从"读字段"升级为"懂业务":
第一张:业务一张图(Ontology)
将订单、商品、库存、客户等核心业务对象结构化,建立统一的实体-关系模型。这不是传统的数据库 Schema,而是业务语义层——Agent 不只知道"这个字段叫 safety_stock",还知道"这是安全库存,它在制造业意味着生产不能中断的底线值,在零售业意味着门店不能空架的最低库存"。
第二张:业务逻辑一张图(Logic)
把专家的决策经验沉淀为 Agent 可执行的规则。老采购总监脑子里那套"看季节定安全库存、看供应商历史定优先级"的经验,被编码成可推理的业务逻辑。Agent 不再只是"算出一个答案",而是"按照业务规则算出一个对的答案"。
第三张:业务执行一张图(Action)
这是最关键的突破:让 Agent 从"只读"变成"可执行"。通过标准化 Action 体系,Agent 可以通过 API 直接触发下单、退货、补货、调拨等操作,形成分析 → 决策 → 执行的完整闭环。
三张图谱叠加的效果:Agent 理解数据、理解规则、能执行动作——这才是"从局外人变成自己人"的技术基础。
系统工程:安全可控的运行环境
如果说上下文工程解决的是"能不能做对",系统工程解决的是"出了问题怎么办":
| 能力 | 解决什么问题 |
|---|---|
| 权限控制 | 谁能看什么数据、谁能执行什么操作,粒度到字段级 |
| 沙箱执行 | Agent 的操作先在沙箱里跑一遍,确认无误再执行 |
| 全链路审计 | 每一步操作留痕,出问题可以追溯到具体决策节点 |
| 前向仿真 | 执行前模拟结果,评估风险 |
| 后向溯源 | 执行后追踪因果链,定位问题根源 |
| 资源抽象 | 屏蔽 Spark、Flink、Ray、PALO 等底层差异,Agent 只管业务逻辑 |
| 文件系统 | 统一管理数据、语义和逻辑,支持版本化,全程可追溯 |
这套系统工程的核心哲学是:给 Agent 装上刹车和方向盘,而不是指望它永远不犯错。
四、落地案例
4.1 南方电网深圳供电局:从"人工海量排查"到"十秒零差错"
背景导语:电力设备缺陷排查是一个典型的"数据密集 + 经验密集"场景,传统做法完全依赖运维人员手动查数据库、比对历史记录。
| 指标 | 改造前 | 改造后 |
|---|---|---|
| 缺陷评估方式 | 人工翻阅数据库,逐条比对 | Agent 自动关联数据库,匹配历史缺陷 |
| 评估速度 | 数小时 | 十秒级 |
| 人工复核时间 | 100% 人工 | 节省 50%,运维人员一键确认 |
| 错误率 | 依赖经验,有遗漏风险 | "零差错" |
Agent 自动关联多个数据库,匹配历史缺陷并生成评估与处置建议,运维人员只需一键确认。从"靠经验翻数据"到"Agent 出方案、人做决定"——这不是取代人,而是把人从低价值的查找工作中释放出来,聚焦高价值的判断和决策。
4.2 制造业:缺料漏报降至零
背景导语:大型制造企业的物料管理是一场规模战——数以万计的 SKU,分散在 ERP、MES、PLM 多个系统中。
| 指标 | 改造前 | 改造后 |
|---|---|---|
| 数据来源 | ERP、MES、PLM 各自独立 | 百度胜算打通多源数据,建统一供应链本体 |
| 缺料漏报 | 频繁发生 | 降至零 |
| 补货响应周期 | 天级 | 分钟级 |
| 决策方式 | 依赖资深采购专家经验 | Agent 自动识别风险 + 替代料推荐 |
关键突破在于:百度胜算把分散在多个系统中的数据统一建模,让 Agent 能够"看到全局",而不是在三个系统之间来回切换。同时,把老专家的决策经验沉淀为可执行规则,解决了"高水平专家稀缺"的行业通病。
4.3 零售业:门店经营的"千店千策"
背景导语:连锁零售的一大痛点是"标准不统一,各说各话"——总部、区域、门店对经营好坏的判断标准不一致。
百度胜算通过构建覆盖"人、货、场"的统一业务语义体系,为大量门店制定差异化评价标准。Agent 可自动完成经营归因、异常分析与问题定位——比如某门店本月业绩下滑,是客流问题、转化率问题还是客单价问题?过去需要数据分析师花几天做的根因分析,现在 Agent 能在分钟级完成。
五、核心洞见
洞见 1:准确率是 ToB Agent 的生死线,不是锦上添花
消费级 Agent 可以"差不多就行",但企业核心业务的容错率接近零。百度胜算把准确率从 80-90% 提到 99%,看似只是 10 个百分点,但在 10 步链式执行中,意味着整体成功率从 35%(90% 单步)跃升至 90%(99% 单步)。这不是渐进式改善,而是"能用"和"不能用"的分界线。
洞见 2:上下文工程正在成为企业 AI 的核心基础设施
Prompt Engineering 优化的是单次交互,Context Engineering 构建的是持久化的业务理解。百度胜算的三张业务图谱——本体、逻辑、执行——本质上是在企业数据和 AI 之间建了一座永久性的桥梁,而不是每次对话都从头翻译。这个方向与 Karpathy、Lütke 等行业领袖的判断一致[4],也与学术界提出的"上下文工程 → 意图工程 → 规范工程"三层金字塔模型吻合[5]。
洞见 3:Agent 的"执行权"是价值天花板的决定因素
大多数企业 Agent 停留在"只读模式"——能分析、能建议,但不能执行。百度胜算的 Action 层赋予 Agent 真正的执行能力(下单、退货、补货),这把 Agent 的价值从"辅助参考"提升到了"生产力工具"。当然,执行权越大,安全约束也必须越强——这正是系统工程那一套存在的理由。
洞见 4:"芯、云、模、体"是百度的全栈卡位策略
百度胜算不是一个孤立的产品发布。它是百度智能云"芯(昆仑芯)→ 云(百度云)→ 模(文心大模型)→ 体(智能体应用)"全栈 AI 布局中数据层的关键拼图。把数据治理和业务语义层做扎实,才能让上层的 DuMate、秒哒、伐谋等 Agent 产品在企业场景中真正落地。
六、竞争格局:企业 Agent 平台的全球角力
百度胜算所处的赛道——企业级 Agent 数据平台——正在成为 2026 年最激烈的战场之一。
| 平台 | 定位 | 核心优势 | 局限 |
|---|---|---|---|
| 百度胜算 | 产业场景数据智能平台 | 三大业务图谱、制造/能源/零售深耕 | 生态规模待验证 |
| Salesforce Agentforce | CRM 生态 Agent 平台 | Data Graph + 直接操作 CRM 数据,$800M ARR | 绑定 Salesforce 生态 |
| Microsoft Copilot Studio | 横向生产力 Agent 平台 | 1400+ 连接器、M365 原生集成 | 偏知识工作者,弱执行 |
| 阿里通义 + 瓴羊 | 电商 + 数据中台 Agent | 电商场景领先,Dataphin 数据治理 | 产业场景覆盖有限 |
有意思的是,百度胜算和 Salesforce Agentforce 在架构思路上有明显的趋同:都强调预计算的业务语义图谱(Baidu 的三大图谱 vs Salesforce 的 Data Graph),都把 Agent 的执行能力(不只是分析)作为核心卖点。这或许说明,行业对"企业 Agent 该怎么做"正在形成共识。
差异在于:Agentforce 锚定的是 CRM 和商业流程,百度胜算锚定的是制造、能源、零售等"重产业"场景。后者的数据更复杂、标准化程度更低、容错率更严——如果能在这些场景中真正跑通,护城河会更深。
七、冷静审视:挑战与不确定性
产品逻辑自洽,但落地是另一回事。几个需要持续观察的问题:
1. "99% 准确率"的含义需要拆解。
这个数字来自"已落地的核心场景"。问题是:哪些场景?多复杂?链条多长?没有第三方基准评测的背书,99% 更像是一个营销数字而非工程指标。参照行业数据,前沿模型在 20+ 工具场景下的准确率仅 65-78%[6],百度胜算如果真能在复杂企业场景中做到 99%,需要更透明的评测方法论来证明。
2. 三大图谱的构建成本不可忽视。
"业务一张图"听起来很美,但把一家大型制造企业的订单、库存、物料、供应商关系全部建模成结构化图谱,是一个重投入项目。这不是买个软件就能解决的,需要深入理解客户业务——百度有没有足够的行业 know-how 和交付团队?
3. 百度 ToB 的历史执行力存疑。
坦率地说,百度在 ToB 领域的产品持续运营能力一直是个问号。从早期的百度大脑到文心一格、曦灵数字人,不少产品"发布即巅峰"。百度胜算能否避免这个命运,取决于三个月后、六个月后的迭代节奏和客户口碑。
4. 与伐谋 2.0 的协同故事需要讲清楚。
伐谋 2.0 做决策优化(排程、物流),百度胜算做数据治理和执行基座——二者理论上是互补的。但目前两款产品的整合程度如何?客户是买一套还是买两套?技术栈是统一的还是各自独立?这些问题决定了"全栈 AI 云"的叙事是否站得住脚。
结语
"Agent 虽通用能力极强,但对企业特定业务缺乏深度理解,如同一个'聪明的局外人'。" —— 刘斌,百度智能云数据平台部总经理
"聪明的局外人"这个比喻精准地描述了 2026 年企业 Agent 的现状。百度胜算给出的答案——上下文工程 + 系统工程——方向是对的:不是让模型更聪明,而是让模型更懂你的业务、更安全地执行。
但方向对和做得到之间,隔着一整条产品化、工程化、交付的路。
对百度来说,胜算这个名字起得有野心。现在需要的,不是"胜算",而是"胜果"。
参考资料
- 明略科技吴明辉,"企业级Agent的'精度陷阱'与人机协同重构之路",新浪财经,2026-04-13,https://finance.sina.com.cn/stock/relnews/hk/2026-04-13/doc-inhukefa4734652.shtml
- 工业智能算网,"企业真正难的,不是把Agent用起来,而是知道它什么时候做错了",2026-04-18,https://gyznsw.cn/2026/04/18/2026-04-18-enterprise-agent-observability-governance/
- AgentMarketCap,"The Benchmark-to-Production Crisis: Why Top-Scoring AI Agents Fail 75% of Real Workplace Tasks",2026-04-13,https://agentmarketcap.ai/blog/2026/04/13/benchmark-production-correlation-crisis-agent-evaluation-2026
- The Decoder,"Shopify CEO and ex-OpenAI researcher agree that context engineering beats prompt engineering",2026,https://the-decoder.com/shopify-ceo-and-ex-openai-researcher-agree-that-context-engineering-beats-prompt-engineering
- arXiv,"Context Engineering: From Prompts to Corporate Multi-Agent Architecture",2026,https://arxiv.org/abs/2603.09619v2
- Presenc AI,"AI Agent Tool-Calling Accuracy Benchmarks 2026",2026,https://presenc.ai/research/ai-agent-tool-calling-accuracy-benchmarks-2026
- 极客公园,"百度智能云发布企业数据智能平台「百度胜算」,破解 Agent 落地企业核心业务难题",2026-05-15,https://www.geekpark.net/news/364224
- 新浪科技,"百度智能云发布百度胜算,Agent企业落地玩法该咋看?",2026-05-17,https://finance.sina.com.cn/tech/roll/2026-05-18/doc-inhyfsvc3281318.shtml
- 百度智能云,"百度胜算产品页",2026,https://cloud.baidu.com/product/databuilder
- Presenc AI,"AI Hallucination Rate Benchmarks 2026",2026,https://presenc.ai/research/ai-hallucination-rate-benchmarks-2026
- CRM Curator,"Agentforce vs Microsoft Copilot Studio: 2026 Platform Decision",2026,https://crmcurator.com/articles/comparisons/agentforce-vs-copilot-studio/