Skip to content

论文解读|InterveneBench:评测大模型在社会科学中的因果干预推理能力

封面

文献与研究动机

本文解读 2026 年发布在 arXiv 的论文 InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems。这篇工作很有意思 —— 它不是评测「大模型能不能做因果推断」,而是测试「大模型能否像社会科学家一样,设计出合理的因果研究方案」。

这个问题很重要:不少因果推断任务其实是开放式的研究设计问题,比如「某个税收政策如何影响 GDP」。我们不能预先给定一个固定的因果图,而是要根据政策背景、数据限制,先设计出一个可行的识别策略(比如用 DiD 还是 IV)。

评测任务:从政策到研究设计

InterveneBench 的核心任务是:给定一个政策干预(比如教育补贴、环境法规),模型要提出一个完整的因果研究设计。具体包括:

  • 选择合适的因果识别方法(如 DiD、IV、RD)
  • 明确变量规范(自变量、因变量、控制变量)
  • 设计组别(实验组与对照组如何划分)
  • 论证关键假设(比如 DiD 的平行趋势)
  • 说明统计检验逻辑

这种任务比一般的因果推断要开放得多 —— 模型要像社科研究者一样,在没有预设因果图的情况下设计研究。

基准构建:人机协作的质控流程

为了构建高质量的基准,作者采用了多智能体 + 人工验证的方案:

  1. 多智能体自动提取

    • Paper Interpreter:解析论文元信息
    • Causal Designer:重构因果设计逻辑
    • Verifier:交叉检查一致性
    • Formatter:标准化输出格式
  2. 人工专家审核

    • 4 位具备经济学和公共政策背景的专家独立审核
    • 每个样本至少由 2 位专家交叉检查
    • 低置信度样本(< 0.9)强制进入人工队列

基准最终包含 744 篇同行评议的社会科学研究论文,覆盖 9 个政策领域。

实验与结果:大模型表现欠佳

作者测试了 11 个最新的大模型,包括 GPT-5.1、Claude Sonnet 4 等。主要发现:

  1. 基本表现不理想

    • 即使最强的 GPT-5.1,在模型选择上准确率也只有 49.3%
    • Final Score(45 分制归一化)最高也只有 0.578
  2. 主要错误类型

    • DiD 和 IV 混淆:在时序数据上容易混淆这两种方法
    • PSM 识别不足:倾向于用 DiD/IV,很少考虑匹配方法
    • 解释偏离:即使方法选对了,因果机制解释也可能不合理

STRIDES 框架:模拟专家协作

针对这些问题,作者提出了 STRIDES 框架,试图通过多智能体协作来模拟社科研究流程:

  1. 理论构建模块

    • Theory Architect:构建定性因果叙事
    • Methodology Agent:转化为数学识别策略
  2. 数据环境模块

    • Data Retrieval:映射到可测量指标
    • Simulation:生成 Mock Data 验证
  3. 验证模块

    • Code Agent:生成统计代码
    • Critic Agent:审查结果一致性

这个框架带来了显著提升:

  • Final Score 提高了 15.1%~25.1%
  • 所有 STRIDES 增强的模型都优于对应的原始模型
  • 在大多数子指标上都有改进(75/84)

局限与启示

尽管 STRIDES 取得了不错的效果,作者也指出了一些局限:

  1. 数据代表性:基准基于已发表论文构建,可能低估了实证覆盖有限的研究

  2. 评估维度

    • 主要评估研究设计推理,而非因果效应估计的数值准确性
    • 将复杂的因果研究简化为离散标准,可能无法完全反映真实世界的复杂性
  3. 模拟限制

    • 模拟数据验证可能引入选择偏差
    • 倾向于选择最小化、可测试的规范,可能影响协变量覆盖

这项工作的主要启示是:虽然大模型在封闭任务上表现不错,但在开放式的因果研究设计上仍有很大提升空间。通过多智能体协作模拟专家工作流是一个有前途的方向。

本文部分内容由 AI 辅助生成,经人工审校和补充后发布。