Skip to content

GPU vs TPU:黄仁勋的底气从何而来,以及他没有说的那些事

封面

📚 「拆解黄仁勋」系列 · 第二篇 基于 Dwarkesh Patel 对 Jensen Huang 的 103 分钟深度专访(2026.4.15)

  1. 黄仁勋谈中国:一场 40 分钟的激烈交锋:芯片出口管制、华为替代、DeepSeek、以及美国技术栈的生死逻辑
  2. 本篇 → GPU vs TPU:TPU 竞争、ASIC 阵营、CUDA 生态与市场全面对比

2026年4月15日,知名科技播客 Dwarkesh Patel 对英伟达 CEO 黄仁勋进行了一场 103 分钟的深度专访。当被问到"世界顶级 AI 模型中,Claude 和 Gemini 都是在 TPU 上训练的,这对英伟达意味着什么"时,黄仁勋给出了一套层次分明、攻防兼备的回答。

本文以这场对话为起点,先梳理黄仁勋的核心论点,再跳出英伟达的视角,客观介绍 TPU 是什么、做了什么、以及 GPU 与 TPU 的真实差异。


第一部分:黄仁勋怎么看 TPU

1. 概念切割:「我们做的不是同一件事」

黄仁勋的第一反应不是正面比性能,而是重新定义赛道:

"英伟达构建的是加速计算(Accelerated Computing),不是张量处理单元。加速计算用于分子动力学、量子色动力学、流体力学、粒子物理……当然,也用于 AI。"

这是一个精心设计的框架——将英伟达的市场定义为「全领域加速计算」,而非「AI 芯片」,从而让 TPU 在定义上就只能是一个子集。

2. 可编程性才是进步的引擎

面对"AI 本质上就是矩阵乘法,TPU 的脉动阵列天然更适合"这一技术论点,黄仁勋的反驳直击要害:

"矩阵乘法是 AI 的重要组成部分,但不是全部。如果你想发明新的注意力机制、创造混合 SSM 架构、或融合扩散模型和自回归技术,你需要一个通用可编程的架构。"

他的逻辑链是:AI 进步 → 依赖算法创新 → 算法创新需要灵活硬件 → GPU 的可编程性是不可替代的。作为佐证,他指出 Hopper 到 Blackwell 的代际性能提升达到 50 倍——远超摩尔定律每年约 25% 的增速——这种飞跃来自 MoE 并行化等算法-软件-硬件的协同创新,而非晶体管微缩。

3. Anthropic 是个例,不是趋势

这可能是整场采访中最大胆的判断。当 Patel 追问 Anthropic 与 Google/Broadcom 的多吉瓦 TPU 协议时,黄仁勋直接说:

"Anthropic 是一个特殊案例,不是趋势。没有 Anthropic,TPU 的增长从何而来?100% 是 Anthropic。"

他坦诚承认,Anthropic 选择 TPU 的根本原因不是技术优劣,而是资本绑定——Google 和 AWS 在早期向 Anthropic 投入了数十亿美元,使用其算力平台是投资条件的一部分。黄仁勋甚至称这是自己的"失误":当年英伟达没有能力也没有意识到需要以"算力换股权"的方式绑定顶级 AI 实验室。

4. 公开叫阵:TCO 基准测试

黄仁勋还发出了一个颇为强硬的公开挑战:

"Dylan 的 InferenceMAX 基准测试就在那里供所有人使用——TPU 不会来,Trainium 不会来。我欢迎他们来展示自己声称的成本优势。从第一性原理来看,这说不通。"

关于自研 ASIC 省钱的说法,他也给出了一个有趣的反驳:英伟达的毛利率约 70%,但 ASIC(如 Broadcom 为客户定制的 AI 芯片,TPU 也属于 ASIC 的一种)的毛利率也有 65%——真正能省下来的空间极为有限。

小结:黄仁勋叙事的核心结构

防线论点
定义层GPU = 全领域加速计算,TPU = AI 专用子集
技术层可编程性驱动算法创新,ASIC 无法跟上
实证层Hopper→Blackwell 50x 飞跃;公开 TCO 挑战
生态层数亿 CUDA GPU 安装基数 + 全栈软件 = 网络效应
商业层Anthropic 选 TPU 是资本绑定,非技术选择

这是一套非常有说服力的叙事。但它毕竟出自英伟达 CEO 之口。要理解这场竞争的全貌,我们需要跳出黄仁勋的视角,看看 TPU 到底是什么,以及它真正做到了什么


第二部分:TPU 到底是什么

先厘清一个概念:ASIC、TPU 和 GPU 的关系

在前面黄仁勋的回应中,"ASIC"这个词反复出现。要理解 TPU,首先要搞清楚这三者的关系:

ASIC(Application-Specific Integrated Circuit,专用集成电路) 是一个大类,指为特定用途从零设计的芯片,与 CPU、GPU 这类通用/半通用处理器相对。你手机里的基带芯片、比特币矿机里的算力芯片,都是 ASIC。

TPU 本质上就是一种 ASIC——它是 Google 为张量运算(Tensor Processing)专门设计的 ASIC。换句话说,TPU 是 ASIC 这个大家族中的一个具体成员,专攻 AI 领域的矩阵计算。

当前 AI 芯片领域的 ASIC 阵营不止 TPU 一家:

芯片所属公司定位
TPUGoogleAI 训练 + 推理,自用为主,也通过 Google Cloud 对外提供
Trainium / InferentiaAmazon (AWS)Trainium 用于训练,Inferentia 用于推理
MaiaMicrosoftAzure 数据中心 AI 加速
MTIAMeta面向推荐系统和广告模型的自研芯片
定制 ASIC(via Broadcom/Marvell)各大客户委托设计Broadcom 和 Marvell 作为 ASIC 设计服务商,为特定客户定制 AI 芯片

GPU 则处于另一端——它是通用并行处理器,不为单一任务设计,而是通过 CUDA 等编程模型灵活适配各种计算负载。正因如此,黄仁勋在采访中反复强调英伟达做的是"加速计算"而非"张量处理",本质上就是在说:GPU 的通用性是 ASIC(包括 TPU)不具备的结构性优势。

理解了这层关系,再来看 TPU 的故事。

起源:一个被逼出来的选择

2013 年前后,Google 内部做了一个预测:如果每位用户每天使用 3 分钟语音搜索,以当时的 CPU 算力计算,Google 需要将数据中心数量翻倍。这在经济上不可接受,于是 Google 做了一个在当时看来极为激进的决定——自研一颗专用 ASIC。

2015 年,第一代 TPU(Tensor Processing Unit)秘密部署在 Google 数据中心,支撑了搜索、翻译、YouTube 推荐和 AlphaGo 对弈。这是互联网巨头自研 AI ASIC 的开端,也为后来 Amazon、Microsoft、Meta 纷纷跟进埋下了伏笔。

核心架构:脉动阵列与权重驻留

TPU 的灵魂是脉动阵列(Systolic Array)——一种高度规则化的计算结构。以最新的 Ironwood(TPU v7)为例,它采用 256×256 的脉动阵列,包含 65,536 个乘加(MAC)单元。

它的工作方式可以这样理解:

  • 权重驻留(Weight-Stationary):模型权重被加载到阵列中保持不动
  • 数据流动:激活值(输入数据)像波浪一样从一端流入,逐级与权重相乘并累加
  • 无中间写回:整个矩阵乘法过程中不需要反复读写中间结果到内存

这种设计牺牲了通用性,换来了矩阵运算的极致效率——对于 Transformer 中大量重复的矩阵乘法操作,这恰恰是最理想的计算模式。

七代演进:从推理专用到全栈 AI 引擎

代际年份关键里程碑代表性能
v12015仅支持推理;92 TOPS (INT8);28-40W比同期 CPU/GPU 能效高 30-80x
v22017首次支持训练;引入 HBM;支持浮点运算开启 TPU Pod 集群概念
v32018液冷散热;训练能力大幅增强单 Pod 超过 100 PFLOPS
v42022光学电路交换(OCS)重构数据中心拓扑吞吐量比 A100 集群高 1.2-1.7x
v5e2023面向推理优化的高性价比版本推动 Gemini 1.0 训练
v6e (Trillium)2024性能 4.7x 于 v5e;能效提升 67%918 TFLOPS (BF16),32GB HBM
v7 (Ironwood)2025面向"推理时代";192GB HBM3e4.6 PFLOPS/芯片;超级 Pod 42.5 EFLOPS

值得注意的趋势:从 v1 的推理专用,到 v2-v5 的训练能力追赶,再到 v7 Ironwood 重新聚焦推理——这个演进轨迹反映了 AI 产业从"训练为王"到"推理爆发"的范式转移。

谁在用 TPU?

TPU 并非实验室产品。以下是一些有据可查的大规模使用案例:

  • Google 自身:Gemini 系列模型的训练和推理全部运行在 TPU 上
  • Anthropic:Claude 系列模型的主要训练和推理平台;已宣布计划使用多达 100 万颗 Ironwood TPU
  • Midjourney:迁移到 TPU v6e 后,月度推理成本从 210 万美元降至 70 万美元,年化节省 1,680 万美元
  • Character.AI:在 TPU 上实现 3.8x 的推理性价比提升
  • Cohere:从 GPU 迁移到 TPU 后获得 3x 吞吐量提升

第三部分:GPU vs TPU——客观对比

架构哲学

GPUTPU
设计理念通用并行处理器,大量小核心并发执行专用矩阵加速器,脉动阵列深度优化张量运算
可编程性高度灵活,通过 CUDA/PTX 可编程到极底层有限可编程,通过 XLA 编译器抽象底层细节
适用范围AI、图形渲染、科学计算、数据处理等全领域主要面向 AI 训练和推理
核心优势灵活性、生态广度、快速适配新算法矩阵运算效率、能效比、特定场景下的性价比

性能与规格对比(当前一代)

指标NVIDIA B200 (Blackwell)Google TPU v7 (Ironwood)
工艺节点TSMC 4nm未公开(推测 5nm/4nm 级别)
峰值算力 (FP8)9,000 TFLOPS4,600 TFLOPS
HBM 容量192 GB HBM3e192 GB HBM3e
HBM 带宽8.0 TB/s7.4 TB/s
TDP700-1000W175-250W(待确认)
互联NVLink (1.8 TB/s)ICI (9.6 Tbps 双向)
最大集群规模NVL72(72卡互联)超级 Pod(9,216 芯片)

注意:直接比较峰值 TFLOPS 具有误导性。不同架构的实际利用率差异很大,TPU 的脉动阵列在矩阵乘法上的利用率通常高于 GPU 的 CUDA 核心,因此实际差距小于纸面数字。

谁在什么场景下更强?

TPU 更具优势的场景:

  • 大规模 Transformer 训练与推理:TPU 的脉动阵列在标准 Transformer 架构的矩阵乘法上效率极高,且 Google 的 Pod 级互联支持超大模型的分布式训练
  • 能效敏感的推理部署:TPU 的每瓦特性能通常优于 GPU 2-3 倍,在大规模推理场景下可显著降低电力成本
  • Google Cloud 生态内的项目:JAX/XLA 工具链与 TPU 深度集成,原生体验流畅
  • 成本敏感的大批量推理:多个实际案例证明 TPU 在大批量推理场景可实现显著的成本节约

GPU 更具优势的场景:

  • 算法研发与原型验证:新型注意力机制、非标准架构(如 SSM、扩散-自回归混合模型)的探索依赖 CUDA 级别的可编程性
  • 多云/混合云部署:GPU 在 AWS、Azure、GCP、OCI 等所有主流云上都可用,不存在供应商锁定
  • 非 AI 的高性能计算:科学模拟、渲染、数据分析等场景 TPU 无法覆盖
  • 快速适配新模型架构:当 AI 领域出现范式级变化(如 2024-2025 年的 MoE 和推理时计算),GPU 的灵活性使其能更快适配
  • 小团队/个人开发者:PyTorch + CUDA 的社区规模和文档丰富度远超 JAX + TPU

生态系统:一道难以逾越的鸿沟?

这是 GPU 和 TPU 竞争中最微妙、也最关键的维度。

CUDA 生态的现实壁垒:

  • 全球流通的英伟达 GPU 数以亿计,覆盖从个人笔记本到超级计算机
  • PyTorch、TensorFlow、Triton、vLLM、SGLang 等主流框架均优先适配 CUDA
  • 超过 20 年的积累形成了庞大的库、工具、教程和社区知识
  • 绝大多数 AI 研究论文的代码基于 CUDA 编写

TPU 生态的追赶:

  • JAX 在研究社区中快速增长,DeepMind 和 Anthropic 等顶级实验室已深度采用
  • XLA 编译器作为中间层,理论上可以桥接多种前端框架
  • OpenXLA 项目试图建立跨硬件的编译器标准
  • 但社区规模、第三方库丰富度和入门门槛仍是明显短板

市场格局:垄断正在松动

截至 2025-2026 年,英伟达仍控制着 AI 芯片市场约 80-87% 的份额。但几个趋势值得关注:

  1. 定制 ASIC 增速远超 GPU:2026 年 AI 芯片市场达到 910 亿美元,定制 ASIC(TPU、Trainium、Maia 等均属此类)的出货量年增速 44.6%,是 GPU 出货量增速(16.1%)的近 3 倍
  2. 推理市场的崛起:预计到 2030 年推理将消耗 75% 的 AI 算力(对应 2,550 亿美元市场),而推理场景对灵活性的要求低于训练,TPU 的效率优势更容易发挥
  3. 超大规模用户的自研趋势:除 Google TPU 外,Amazon 有 Trainium,Microsoft 有 Maia,Meta 有 MTIA——拥有足够规模的公司都在走自研路线

结语:答案可能不是非此即彼

回到最初的问题——TPU 能否打破英伟达的垄断?

黄仁勋的回答本质上是:不能。他的论据围绕可编程性、生态深度和商业本质展开,每一条都有其道理。尤其是"Anthropic 是个例不是趋势"和"算法创新需要灵活硬件"这两个论点,在当前阶段确实成立。

但他没有说的是:

  • 并非所有 AI 工作负载都需要极致灵活性。 当模型架构趋于稳定、推理逐渐成为主要计算消耗时,专用硬件的效率优势会放大。
  • "不是趋势"可能只是"还不是趋势"。 Midjourney、Character.AI、Cohere 的迁移案例说明,当性价比差距足够大时,生态壁垒并非不可逾越。
  • 最大的 GPU 客户恰恰是最有动力摆脱 GPU 的人。 Google、Amazon、Microsoft、Meta——英伟达收入的主要来源——同时也是最积极自研芯片的公司。这不是巧合。

更大的图景可能是:GPU 和 TPU/ASIC 将长期共存,各自占据最适合自己的生态位。 GPU 在灵活性要求高的训练前沿和多元化工作负载中保持主导;TPU/ASIC 在架构成熟、规模效应显著的大规模推理部署中不断蚕食市场。

这场竞争不会以某一方"打破垄断"或"一统江湖"终结。它更可能是一个持续的动态博弈,而最终的受益者是整个 AI 产业——因为竞争永远是降低计算成本、加速技术进步的最好催化剂。


参考资料:


📚 「拆解黄仁勋」系列 · 上一篇 → 黄仁勋谈中国:一场 40 分钟的激烈交锋