深度调研｜LLM4OR：当大语言模型遇上运筹优化

Deep Research 报告 | 2026 年 5 月 | 面向技术决策者、AI/OR 工程师与研究者

摘要

运筹优化（OR）是复杂系统决策的核心方法论，但建模过程长期依赖高度专业化人才——据 Gurobi 2023 年调查，81% 的求解器用户拥有硕博学位。这一"专家壁垒"严重制约了优化技术的规模化落地。

LLM4OR（Large Language Models for Operations Research）正在打破这道壁垒。从 NeurIPS 2022 的 NL4Opt 竞赛起步，到 2026 年 OptimAI 在基准上达到 88.1% 准确率（错误率降低 58%），LLM 正在实现"自然语言→数学模型→求解器代码"的端到端自动化。

本文梳理 LLM4OR 的起源、技术架构、代表性系统、落地案例与未来走向。

一、起源与发展脉络

2022：起点。 NeurIPS 举办首届 NL4Opt 竞赛，289 个测试实例，首次将"自然语言→优化建模"定义为独立 NLP 任务。关键发现：LLM 在理解领域术语（如"兆瓦时"、"启动成本"）和推断隐式约束方面，能力超出预期。

2023：探索。 Stanford 的 OptiMUS V0.1 首次构建"LLM 即优化 Agent"的闭环——建模→生成代码→执行→反馈修正。OptiChat、OptiGuide 等对话式系统开始探索人机协作建模。

2024：爆发。 浙大与华为诺亚方舟实验室推出 ORLM、Chain-of-Experts 框架及 IndustryOR 工业基准。OptiMUS 升级至 V0.3，引入 RAG。多篇综述论文发表，LLM4OR 从零散探索走向系统化。

LLM4OR 发展里程碑

2025-2026：产业化前夜。 OR-LLM-Agent 在 83 个真实问题上达 100% 代码通过率和 85% 求解准确率；OptimAI 多 Agent 架构刷新基准；ORPilot 面向生产环境设计。Gurobi 官方发布 AI Modeling 文档和 Custom GPT——工业界正式入场。

二、定义与研究方向

2.1 什么是 LLM4OR

LLM4OR 是利用大语言模型将自然语言描述的优化问题，自动转化为数学求解器可执行的形式化模型（数学公式或代码）的技术范式。简言之：用户说人话，系统出模型。

2.2 与相邻概念的对比

维度	LLM4OR	AI 组合优化	AutoML	传统 OR
输入	自然语言	结构化实例	数据集 + 任务	人工分析
输出	模型/代码	可行解	模型配置	数学模型
专家依赖	低	中	低	极高
成熟度	研究→早期产品	研究+部分生产	成熟	工业标准

2.3 三大研究方向

自动建模（Automatic Modeling）：LLM 将自然语言翻译为数学模型或代码——最核心方向
辅助优化（Auxiliary Optimization）：LLM 生成启发式策略、算法算子，与传统算法协作
直接求解（Direct Solving）：LLM 作为独立优化器直接产出解——仍处早期

三、核心架构与技术栈

一个完整的 LLM4OR 系统遵循如下端到端流程：

LLM4OR 端到端流程

自然语言 → LLM 推理 → 数学模型 → 求解器执行 → 业务决策，求解器执行结果反馈回 LLM 迭代修正，形成闭环。支撑这条链路的是四大技术模块。

3.1 数据合成与模型微调

高质量训练数据稀缺且标注昂贵，当前有两条合成路线：

问题中心：以已有问题为种子，变换约束、改写场景来生成新题。代表：OR-Instruct、LLMOPT
模型中心：先生成数学模型/代码，再反向撰写问题描述，对难度和类型有更精细的控制。代表：OptiBench、ReSocratic

微调方面，主流用监督微调（SFT）。2025-2026 年的新趋势是强化学习驱动：AutoOR 用 RL 后训练 8B 模型，EVOM 把求解器当确定性验证器构建闭环训练——模型生成答案、求解器判对错、奖励信号回传。

3.2 推理框架

范式	代表	优势
简单 Prompt	NL4Opt baseline	快速上手
X-of-Thought	CAFA, Autoformulation	复杂逻辑推理
多 Agent 协作	Chain-of-Experts, OptimAI	可解释、容错高
Prompt + 微调	ORLM, AutoOR	泛化与精度兼顾
产业级 Agent	ORPilot	面向真实业务

多 Agent 架构是当前最有潜力的方向。以 OptimAI 为例，四个角色各司其职：

建模师（Formulator）：自然语言 → 数学公式
规划师（Planner）：制定求解策略
编码师（Coder）：生成求解器代码
审查员（Code Critic）：调试与修正

消融实验证实每个角色不可或缺：去掉规划师性能降 5.8 倍，去掉审查员降 3.1 倍。系统还引入 UCB（Upper Confidence Bound，上置信界）调度——一种源自多臂老虎机的策略，在"沿用已知最优修复路径"和"探索新路径"之间动态平衡，额外贡献 3.3 倍提升。

3.3 基准数据集

当前数据集质量堪忧。浙大团队对主流基准做了人工审查，发现错误率惊人：

数据集	实例数	错误率	类型
NL4Opt	289	≥26.4%	具体建模
IndustryOR	100	≥54.0%	工业级
EasyLP	652	≥8.13%	具体建模
ComplexLP	211	≥23.7%	具体建模
NLP4LP	269	—	抽象建模
OptiBench	816	—	抽象建模

IndustryOR 超半数标注有错——在此基础上评估出的"SOTA"不可信。浙大团队清洗了全部数据集，建立了统一的 LLM4OR Leaderboard。关于这 100 道工业题的构建过程、清洗始末和各模型详细排名，见延伸篇：拆解 IndustryOR：LLM4OR 的 100 道工业优化试金石。

3.4 求解器集成

直接生成代码：输出 Gurobi / PuLP / Pyomo 的 Python 代码
求解器无关 IR：ORPilot 的中间表示可编译到 Gurobi、CPLEX、PuLP、Pyomo、OR-Tools
官方支持：Gurobi 已发布 AI Modeling 文档和 Custom GPT
RAG 增强：CHORUS 让开源 LLM 在 Gurobi 代码生成上追平 GPT-4

四、代表性系统与落地案例

4.1 OptimAI：多 Agent 架构刷新基准

OptimAI 多 Agent 协作架构

2026 年 1 月发表，代表 LLM4OR 多 Agent 协作的最高水平。

指标	数值
NLP4LP 准确率	88.1%（错误率降低 58%）
OptiBench 准确率	82.3%（错误率降低 52%）
去除规划师	性能降 5.8×
去除审查员	性能降 3.1×
UCB 调度增益	+3.3×

关键创新：在编码前先由规划师制定求解策略；UCB 调度实现多修复路径的智能切换。

4.2 OR-LLM-Agent：推理模型的端到端验证

OR-LLM-Agent 端到端自动化架构

首个系统评估推理 LLM（GPT-o3-mini、DeepSeek-R1、Gemini 2.0 Flash Thinking）在真实 OR 问题上的框架。

指标	数值
真实问题数	83
代码通过率	100%
求解准确率	85%
vs GPT-o3	+7%

采用"建模→生成代码→沙箱验证→自动修复"流程。100% 代码通过率说明推理 LLM 在代码生成环节已接近可靠，真正的瓶颈在数学建模本身。

4.3 ORPilot：面向生产环境的 Agent 工具

ORPilot 面向生产环境的 Agent 架构

2026 年 5 月发表，专为真实业务场景设计。

指标	数值
IndustryOR 表现	超越现有 SOTA
支持求解器	Gurobi / CPLEX / PuLP / Pyomo / OR-Tools
核心模块	会话采访 → 数据收集 → 参数计算 → 建模求解

核心差异化：对话式问题采集。用户不必一次写清所有需求，会话 Agent 逐步引导补全；数据收集 Agent 独立处理原始运营数据。解决的是"用户只说'帮我排个班'，系统如何补全所有缺失信息"的真实痛点。

4.4 AutoOR 与 EvoOpt-LLM：小模型高效训练

高效训练范式：AutoOR vs EvoOpt-LLM

证明了不依赖 GPT-4 级大模型也能达到竞争力。

系统	规模	数据量	核心成果
AutoOR	8B	合成数据	6 个基准达 SOTA，含非线性问题
EvoOpt-LLM	7B	3,000 条	91% 生成率
OR-Toolformer	8B	半自动合成	80.1% 执行准确率，零样本迁移 +21pp

AutoOR 的课程学习（从简到难排列非线性问题）突破了传统瓶颈；EvoOpt-LLM 证明 3,000 条数据就够用。对关注数据安全和成本的企业而言，本地部署已在技术上可行。

4.5 Gurobi：求解器巨头官方入场

Gurobi 的 gurobi-ai-modeling 开源项目提供了 LLM 建模最佳实践、面向各类工程师的 prompt 示例、三款 Custom GPT，以及详细的 LLM 建模陷阱清单（供需假设偏差、时序复杂性盲区、三维空间推理弱点等）。求解器厂商的官方背书，标志着 LLM4OR 已从实验走向工具化。

4.6 联想 ORMind 与 KLM CrewVision

联想 ORMind：内部 AI 助手中测试，NL4Opt 提升 9.5%，ComplexOR 提升 14.6%，展示企业级落地路径
KLM CrewVision：与 BCG 合作，基于 Gurobi 的五年机组规划工具，规划时间从一周缩短至数小时

五、关键发现与洞察

洞见1：多 Agent 协作是架构共识。 从 Chain-of-Experts 到 OptimAI 再到 ORPilot，多 Agent 在可解释性、容错性和模块化上全面胜出。单 LLM + prompt 在复杂问题上已触天花板。

洞见2：数据质量是被低估的瓶颈。 IndustryOR 54% 的错误率意味着，基于它训练或评测的系统结论都不可靠。我们需要求解器驱动的自动化评测，而非人工标注。

洞见3：小模型 + 少数据已可用。 8B 模型 + RL 后训练（AutoOR）、7B 模型 + 3000 条数据（EvoOpt-LLM）均达到竞争力水平。本地部署不再是空想。

洞见4：求解器反馈闭环是可靠性基石。 LLM 生成的模型必须经求解器实际执行验证，形成"生成→执行→反馈→修正"闭环，才能达到生产可用水平。

六、行业影响与未来展望

6.1 角色变迁

LLM4OR 不会消灭 OR 专家，但会重塑其角色——从"亲手建模"转向"审核模型"。自动化覆盖需求理解、模型构建、代码生成后，专家的核心价值在于：问题定义审核、模型正确性验证、解方案的业务解读、边界案例处理。

6.2 民主化效应

81% 的求解器用户持有高级学位——这意味着大量企业被挡在优化技术门外。当工程师可以用自然语言描述排班、调度、配送问题时，潜在用户群将扩大数个数量级。

6.3 治理挑战

可解释性：LLM 推理是黑箱，生成模型的可审计性如何保障？
责任归属：自动生成的模型驱动航班排班或医疗资源分配时，谁为正确性负责？
偏差传播：LLM 训练数据中的不完善建模范式，可能被自动化放大

6.4 推理模型驱动建模

OpenAI o1、DeepSeek R1 等推理模型在数学任务上表现强劲，但尚未充分迁移至优化建模。DeepSeek R1 的纯 RL 路线提供了方向——将建模过程建模为 MDP，以求解器反馈为奖励信号。

6.5 人机协同建模（Human-in-the-Loop）

完全自动化是远期目标，近期更务实的是人机协同：系统识别何时需要人类干预（术语模糊、约束矛盾、规模超限），主动请求输入。ORPilot 的对话式采访是早期尝试。

6.6 领域知识图谱注入

优化建模高度依赖行业知识（约束条件、经验参数、建模范式）。将这些知识结构化为知识图谱并与 LLM 融合，是提升建模质量的关键路径。

6.7 可验证的安全建模

进入医疗、航空、金融等关键领域后，需要形式化验证确保模型正确性——结合约束传播、模型检查与 LLM 生成能力，构建"生成→验证→证明"三层架构。

结语

"The goal is not to replace the optimization expert, but to give every decision-maker an optimization expert."

LLM4OR 用不到四年完成了从概念验证到产业化前夜的跨越。多 Agent 协作已成共识，小模型路线已被验证，求解器厂商已入场，企业部署正在发生。

但挑战同样清晰：基准数据质量堪忧、建模缺乏可解释性、跨领域泛化有限、生产可靠性保障尚未成熟。下一个里程碑不是更高的基准分数，而是第一个被真正信任、驱动关键业务决策的生产系统。

当你的团队下次说"我们需要一个优化方案"时，你会等 OR 专家三周的排期，还是让 AI Agent 三分钟给出第一版模型？

附录：关键资源

资源	类型	链接
LLM4OR Portal	统一门户	https://llm4or.github.io/LLM4OR
Gurobi AI Modeling	官方实践指南	https://gurobi-ai-modeling.readthedocs.io
OptiMUS	开源框架	https://github.com/teshnizi/optimus
ORLM	领域专用 LLM	Tang et al. 2024 (Hugging Face)
OptiBench	基准数据集	Wang et al. 2024 (Hugging Face)
OR-LLM-Agent	端到端 Agent	arXiv:2503.10009
OptimAI	多 Agent 框架	arXiv:2504.16918
ORPilot	产业级工具	arXiv:2605.02728

参考资料

Xiao, Z. et al. (浙大 & 华为). "A Survey of Optimization Modeling Meets LLMs." arXiv:2508.10047, 2025.
Wang, Y. & Li, K. "Large Language Models and Operations Research: A Structured Survey." arXiv:2509.18180, 2025.
Ramamonjison, R. et al. "NL4Opt Competition." NeurIPS 2022. arXiv:2303.08233.
AhmadiTeshnizi, A. et al. "OptiMUS: Scalable Optimization Modeling with LLMs." ICML 2024.
Tang, Z. et al. "ORLM: Training LLMs for Optimization Modeling." arXiv:2405.17743, 2024.
Xiao, Z. et al. "Chain-of-Experts: When LLMs Meet Complex OR Problems." ICLR 2024.
OptimAI Team. "OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents." arXiv:2504.16918, 2026.
Zhang, J. et al. "OR-LLM-Agent." arXiv:2503.10009, 2025.
ORPilot Team. "ORPilot: A Production-Oriented Agentic LLM-for-OR Tool." arXiv:2605.02728, 2026.
AutoOR Team. "AutoOR: Scalably Post-training LLMs to Autoformalize OR Problems." arXiv:2604.16804, 2026.
Gurobi Optimization. "Gurobi AI Modeling Documentation." https://gurobi-ai-modeling.readthedocs.io
Gurobi Optimization. "2023 State of Mathematical Optimization Report."
Deix AI. "LLM4OR: The Generative AI That Translates Problems into Solutions." 2025.
Jiang, C. et al. "LLMOPT." arXiv:2410.13213, 2024.
EvoOpt-LLM Team. arXiv:2602.01082, 2026.
OR-Toolformer Team. arXiv:2510.01253, 2025.
LEAN-LLM-OPT Team. arXiv:2601.09635, 2026.
EVOM Team. arXiv:2604.00442, 2026.
KLM & BCG. "Using Optimization to Navigate a Turbulent Planning Horizon." Gurobi Case Study.
Zhang, Y. et al. "Explainable Operations Research." ICLR 2025.

深度调研｜LLM4OR：当大语言模型遇上运筹优化 ​

摘要 ​

一、起源与发展脉络 ​

二、定义与研究方向 ​

2.1 什么是 LLM4OR ​

2.2 与相邻概念的对比 ​

2.3 三大研究方向 ​

三、核心架构与技术栈 ​

3.1 数据合成与模型微调 ​

3.2 推理框架 ​

3.3 基准数据集 ​

3.4 求解器集成 ​

四、代表性系统与落地案例 ​

4.1 OptimAI：多 Agent 架构刷新基准 ​

4.2 OR-LLM-Agent：推理模型的端到端验证 ​

4.3 ORPilot：面向生产环境的 Agent 工具 ​

4.4 AutoOR 与 EvoOpt-LLM：小模型高效训练 ​

4.5 Gurobi：求解器巨头官方入场 ​

4.6 联想 ORMind 与 KLM CrewVision ​

五、关键发现与洞察 ​

六、行业影响与未来展望 ​

6.1 角色变迁 ​

6.2 民主化效应 ​

6.3 治理挑战 ​

6.4 推理模型驱动建模 ​

6.5 人机协同建模（Human-in-the-Loop） ​

6.6 领域知识图谱注入 ​

6.7 可验证的安全建模 ​

结语 ​

附录：关键资源 ​

参考资料 ​