GPU vs TPU：黄仁勋的底气从何而来，以及他没有说的那些事

📚 「拆解黄仁勋」系列 · 第二篇 基于 Dwarkesh Patel 对 Jensen Huang 的 103 分钟深度专访（2026.4.15）
黄仁勋谈中国：一场 40 分钟的激烈交锋：芯片出口管制、华为替代、DeepSeek、以及美国技术栈的生死逻辑
本篇 → GPU vs TPU：TPU 竞争、ASIC 阵营、CUDA 生态与市场全面对比

2026年4月15日，知名科技播客 Dwarkesh Patel 对英伟达 CEO 黄仁勋进行了一场 103 分钟的深度专访。当被问到"世界顶级 AI 模型中，Claude 和 Gemini 都是在 TPU 上训练的，这对英伟达意味着什么"时，黄仁勋给出了一套层次分明、攻防兼备的回答。
本文以这场对话为起点，先梳理黄仁勋的核心论点，再跳出英伟达的视角，客观介绍 TPU 是什么、做了什么、以及 GPU 与 TPU 的真实差异。

第一部分：黄仁勋怎么看 TPU

1. 概念切割：「我们做的不是同一件事」

黄仁勋的第一反应不是正面比性能，而是重新定义赛道：

"英伟达构建的是加速计算（Accelerated Computing），不是张量处理单元。加速计算用于分子动力学、量子色动力学、流体力学、粒子物理……当然，也用于 AI。"

这是一个精心设计的框架——将英伟达的市场定义为「全领域加速计算」，而非「AI 芯片」，从而让 TPU 在定义上就只能是一个子集。

2. 可编程性才是进步的引擎

面对"AI 本质上就是矩阵乘法，TPU 的脉动阵列天然更适合"这一技术论点，黄仁勋的反驳直击要害：

"矩阵乘法是 AI 的重要组成部分，但不是全部。如果你想发明新的注意力机制、创造混合 SSM 架构、或融合扩散模型和自回归技术，你需要一个通用可编程的架构。"

他的逻辑链是：AI 进步 → 依赖算法创新 → 算法创新需要灵活硬件 → GPU 的可编程性是不可替代的。作为佐证，他指出 Hopper 到 Blackwell 的代际性能提升达到 50 倍——远超摩尔定律每年约 25% 的增速——这种飞跃来自 MoE 并行化等算法-软件-硬件的协同创新，而非晶体管微缩。

3. Anthropic 是个例，不是趋势

这可能是整场采访中最大胆的判断。当 Patel 追问 Anthropic 与 Google/Broadcom 的多吉瓦 TPU 协议时，黄仁勋直接说：

"Anthropic 是一个特殊案例，不是趋势。没有 Anthropic，TPU 的增长从何而来？100% 是 Anthropic。"

他坦诚承认，Anthropic 选择 TPU 的根本原因不是技术优劣，而是资本绑定——Google 和 AWS 在早期向 Anthropic 投入了数十亿美元，使用其算力平台是投资条件的一部分。黄仁勋甚至称这是自己的"失误"：当年英伟达没有能力也没有意识到需要以"算力换股权"的方式绑定顶级 AI 实验室。

4. 公开叫阵：TCO 基准测试

黄仁勋还发出了一个颇为强硬的公开挑战：

"Dylan 的 InferenceMAX 基准测试就在那里供所有人使用——TPU 不会来，Trainium 不会来。我欢迎他们来展示自己声称的成本优势。从第一性原理来看，这说不通。"

关于自研 ASIC 省钱的说法，他也给出了一个有趣的反驳：英伟达的毛利率约 70%，但 ASIC（如 Broadcom 为客户定制的 AI 芯片，TPU 也属于 ASIC 的一种）的毛利率也有 65%——真正能省下来的空间极为有限。

小结：黄仁勋叙事的核心结构

防线	论点
定义层	GPU = 全领域加速计算，TPU = AI 专用子集
技术层	可编程性驱动算法创新，ASIC 无法跟上
实证层	Hopper→Blackwell 50x 飞跃；公开 TCO 挑战
生态层	数亿 CUDA GPU 安装基数 + 全栈软件 = 网络效应
商业层	Anthropic 选 TPU 是资本绑定，非技术选择

这是一套非常有说服力的叙事。但它毕竟出自英伟达 CEO 之口。要理解这场竞争的全貌，我们需要跳出黄仁勋的视角，看看 TPU 到底是什么，以及它真正做到了什么。

第二部分：TPU 到底是什么

先厘清一个概念：ASIC、TPU 和 GPU 的关系

在前面黄仁勋的回应中，"ASIC"这个词反复出现。要理解 TPU，首先要搞清楚这三者的关系：

ASIC（Application-Specific Integrated Circuit，专用集成电路） 是一个大类，指为特定用途从零设计的芯片，与 CPU、GPU 这类通用/半通用处理器相对。你手机里的基带芯片、比特币矿机里的算力芯片，都是 ASIC。

TPU 本质上就是一种 ASIC——它是 Google 为张量运算（Tensor Processing）专门设计的 ASIC。换句话说，TPU 是 ASIC 这个大家族中的一个具体成员，专攻 AI 领域的矩阵计算。

当前 AI 芯片领域的 ASIC 阵营不止 TPU 一家：

芯片	所属公司	定位
TPU	Google	AI 训练 + 推理，自用为主，也通过 Google Cloud 对外提供
Trainium / Inferentia	Amazon (AWS)	Trainium 用于训练，Inferentia 用于推理
Maia	Microsoft	Azure 数据中心 AI 加速
MTIA	Meta	面向推荐系统和广告模型的自研芯片
定制 ASIC（via Broadcom/Marvell）	各大客户委托设计	Broadcom 和 Marvell 作为 ASIC 设计服务商，为特定客户定制 AI 芯片

GPU 则处于另一端——它是通用并行处理器，不为单一任务设计，而是通过 CUDA 等编程模型灵活适配各种计算负载。正因如此，黄仁勋在采访中反复强调英伟达做的是"加速计算"而非"张量处理"，本质上就是在说：GPU 的通用性是 ASIC（包括 TPU）不具备的结构性优势。

理解了这层关系，再来看 TPU 的故事。

起源：一个被逼出来的选择

2013 年前后，Google 内部做了一个预测：如果每位用户每天使用 3 分钟语音搜索，以当时的 CPU 算力计算，Google 需要将数据中心数量翻倍。这在经济上不可接受，于是 Google 做了一个在当时看来极为激进的决定——自研一颗专用 ASIC。

2015 年，第一代 TPU（Tensor Processing Unit）秘密部署在 Google 数据中心，支撑了搜索、翻译、YouTube 推荐和 AlphaGo 对弈。这是互联网巨头自研 AI ASIC 的开端，也为后来 Amazon、Microsoft、Meta 纷纷跟进埋下了伏笔。

核心架构：脉动阵列与权重驻留

TPU 的灵魂是脉动阵列（Systolic Array）——一种高度规则化的计算结构。以最新的 Ironwood（TPU v7）为例，它采用 256×256 的脉动阵列，包含 65,536 个乘加（MAC）单元。

它的工作方式可以这样理解：

权重驻留（Weight-Stationary）：模型权重被加载到阵列中保持不动
数据流动：激活值（输入数据）像波浪一样从一端流入，逐级与权重相乘并累加
无中间写回：整个矩阵乘法过程中不需要反复读写中间结果到内存

这种设计牺牲了通用性，换来了矩阵运算的极致效率——对于 Transformer 中大量重复的矩阵乘法操作，这恰恰是最理想的计算模式。

七代演进：从推理专用到全栈 AI 引擎

代际	年份	关键里程碑	代表性能
v1	2015	仅支持推理；92 TOPS (INT8)；28-40W	比同期 CPU/GPU 能效高 30-80x
v2	2017	首次支持训练；引入 HBM；支持浮点运算	开启 TPU Pod 集群概念
v3	2018	液冷散热；训练能力大幅增强	单 Pod 超过 100 PFLOPS
v4	2022	光学电路交换（OCS）重构数据中心拓扑	吞吐量比 A100 集群高 1.2-1.7x
v5e	2023	面向推理优化的高性价比版本	推动 Gemini 1.0 训练
v6e (Trillium)	2024	性能 4.7x 于 v5e；能效提升 67%	918 TFLOPS (BF16)，32GB HBM
v7 (Ironwood)	2025	面向"推理时代"；192GB HBM3e	4.6 PFLOPS/芯片；超级 Pod 42.5 EFLOPS

值得注意的趋势：从 v1 的推理专用，到 v2-v5 的训练能力追赶，再到 v7 Ironwood 重新聚焦推理——这个演进轨迹反映了 AI 产业从"训练为王"到"推理爆发"的范式转移。

谁在用 TPU？

TPU 并非实验室产品。以下是一些有据可查的大规模使用案例：

Google 自身：Gemini 系列模型的训练和推理全部运行在 TPU 上
Anthropic：Claude 系列模型的主要训练和推理平台；已宣布计划使用多达 100 万颗 Ironwood TPU
Midjourney：迁移到 TPU v6e 后，月度推理成本从 210 万美元降至 70 万美元，年化节省 1,680 万美元
Character.AI：在 TPU 上实现 3.8x 的推理性价比提升
Cohere：从 GPU 迁移到 TPU 后获得 3x 吞吐量提升

第三部分：GPU vs TPU——客观对比

架构哲学

	GPU	TPU
设计理念	通用并行处理器，大量小核心并发执行	专用矩阵加速器，脉动阵列深度优化张量运算
可编程性	高度灵活，通过 CUDA/PTX 可编程到极底层	有限可编程，通过 XLA 编译器抽象底层细节
适用范围	AI、图形渲染、科学计算、数据处理等全领域	主要面向 AI 训练和推理
核心优势	灵活性、生态广度、快速适配新算法	矩阵运算效率、能效比、特定场景下的性价比

性能与规格对比（当前一代）

指标	NVIDIA B200 (Blackwell)	Google TPU v7 (Ironwood)
工艺节点	TSMC 4nm	未公开（推测 5nm/4nm 级别）
峰值算力 (FP8)	9,000 TFLOPS	4,600 TFLOPS
HBM 容量	192 GB HBM3e	192 GB HBM3e
HBM 带宽	8.0 TB/s	7.4 TB/s
TDP	700-1000W	175-250W（待确认）
互联	NVLink (1.8 TB/s)	ICI (9.6 Tbps 双向)
最大集群规模	NVL72（72卡互联）	超级 Pod（9,216 芯片）

注意：直接比较峰值 TFLOPS 具有误导性。不同架构的实际利用率差异很大，TPU 的脉动阵列在矩阵乘法上的利用率通常高于 GPU 的 CUDA 核心，因此实际差距小于纸面数字。

谁在什么场景下更强？

TPU 更具优势的场景：

大规模 Transformer 训练与推理：TPU 的脉动阵列在标准 Transformer 架构的矩阵乘法上效率极高，且 Google 的 Pod 级互联支持超大模型的分布式训练
能效敏感的推理部署：TPU 的每瓦特性能通常优于 GPU 2-3 倍，在大规模推理场景下可显著降低电力成本
Google Cloud 生态内的项目：JAX/XLA 工具链与 TPU 深度集成，原生体验流畅
成本敏感的大批量推理：多个实际案例证明 TPU 在大批量推理场景可实现显著的成本节约

GPU 更具优势的场景：

算法研发与原型验证：新型注意力机制、非标准架构（如 SSM、扩散-自回归混合模型）的探索依赖 CUDA 级别的可编程性
多云/混合云部署：GPU 在 AWS、Azure、GCP、OCI 等所有主流云上都可用，不存在供应商锁定
非 AI 的高性能计算：科学模拟、渲染、数据分析等场景 TPU 无法覆盖
快速适配新模型架构：当 AI 领域出现范式级变化（如 2024-2025 年的 MoE 和推理时计算），GPU 的灵活性使其能更快适配
小团队/个人开发者：PyTorch + CUDA 的社区规模和文档丰富度远超 JAX + TPU

生态系统：一道难以逾越的鸿沟？

这是 GPU 和 TPU 竞争中最微妙、也最关键的维度。

CUDA 生态的现实壁垒：

全球流通的英伟达 GPU 数以亿计，覆盖从个人笔记本到超级计算机
PyTorch、TensorFlow、Triton、vLLM、SGLang 等主流框架均优先适配 CUDA
超过 20 年的积累形成了庞大的库、工具、教程和社区知识
绝大多数 AI 研究论文的代码基于 CUDA 编写

TPU 生态的追赶：

JAX 在研究社区中快速增长，DeepMind 和 Anthropic 等顶级实验室已深度采用
XLA 编译器作为中间层，理论上可以桥接多种前端框架
OpenXLA 项目试图建立跨硬件的编译器标准
但社区规模、第三方库丰富度和入门门槛仍是明显短板

市场格局：垄断正在松动

截至 2025-2026 年，英伟达仍控制着 AI 芯片市场约 80-87% 的份额。但几个趋势值得关注：

定制 ASIC 增速远超 GPU：2026 年 AI 芯片市场达到 910 亿美元，定制 ASIC（TPU、Trainium、Maia 等均属此类）的出货量年增速 44.6%，是 GPU 出货量增速（16.1%）的近 3 倍
推理市场的崛起：预计到 2030 年推理将消耗 75% 的 AI 算力（对应 2,550 亿美元市场），而推理场景对灵活性的要求低于训练，TPU 的效率优势更容易发挥
超大规模用户的自研趋势：除 Google TPU 外，Amazon 有 Trainium，Microsoft 有 Maia，Meta 有 MTIA——拥有足够规模的公司都在走自研路线

结语：答案可能不是非此即彼

回到最初的问题——TPU 能否打破英伟达的垄断？

黄仁勋的回答本质上是：不能。他的论据围绕可编程性、生态深度和商业本质展开，每一条都有其道理。尤其是"Anthropic 是个例不是趋势"和"算法创新需要灵活硬件"这两个论点，在当前阶段确实成立。

但他没有说的是：

并非所有 AI 工作负载都需要极致灵活性。 当模型架构趋于稳定、推理逐渐成为主要计算消耗时，专用硬件的效率优势会放大。
"不是趋势"可能只是"还不是趋势"。 Midjourney、Character.AI、Cohere 的迁移案例说明，当性价比差距足够大时，生态壁垒并非不可逾越。
最大的 GPU 客户恰恰是最有动力摆脱 GPU 的人。 Google、Amazon、Microsoft、Meta——英伟达收入的主要来源——同时也是最积极自研芯片的公司。这不是巧合。

更大的图景可能是：GPU 和 TPU/ASIC 将长期共存，各自占据最适合自己的生态位。 GPU 在灵活性要求高的训练前沿和多元化工作负载中保持主导；TPU/ASIC 在架构成熟、规模效应显著的大规模推理部署中不断蚕食市场。

这场竞争不会以某一方"打破垄断"或"一统江湖"终结。它更可能是一个持续的动态博弈，而最终的受益者是整个 AI 产业——因为竞争永远是降低计算成本、加速技术进步的最好催化剂。

参考资料：

📚 「拆解黄仁勋」系列 · 上一篇 → 黄仁勋谈中国：一场 40 分钟的激烈交锋

GPU vs TPU：黄仁勋的底气从何而来，以及他没有说的那些事 ​

第一部分：黄仁勋怎么看 TPU ​

1. 概念切割：「我们做的不是同一件事」 ​

2. 可编程性才是进步的引擎 ​

3. Anthropic 是个例，不是趋势 ​

4. 公开叫阵：TCO 基准测试 ​

小结：黄仁勋叙事的核心结构 ​

第二部分：TPU 到底是什么 ​

先厘清一个概念：ASIC、TPU 和 GPU 的关系 ​

起源：一个被逼出来的选择 ​

核心架构：脉动阵列与权重驻留 ​

七代演进：从推理专用到全栈 AI 引擎 ​

谁在用 TPU？ ​

第三部分：GPU vs TPU——客观对比 ​

架构哲学 ​

性能与规格对比（当前一代） ​

谁在什么场景下更强？ ​

生态系统：一道难以逾越的鸿沟？ ​

市场格局：垄断正在松动 ​

结语：答案可能不是非此即彼 ​