2025年的AI芯片市场正处于微妙的拐点。另一方面,NVIDIA在技术和市场份额上仍然保持着对Blackwell的绝对领先。但另一方面,谷歌TPU的全面商业化削弱了NVIDIA看似牢不可破的定价能力。半导体行业研究机构 Semianalysis 估计,仅 OpenAI 的“威胁购买 TPU”就迫使英伟达绿链做出重大让步,使其计算集群的总拥有成本 (TCO) 降低了约 30%。在Anthropic收购1GW TPU的细节被曝光后,谷歌正式摘下了“云服务提供商”的面具,转型为直接向第三方销售高性能芯片和系统的“商业芯片供应商”。当 OpenAI 可以“威胁购买 TPU”来换取 30% 的折扣时,Anthropic 可以使用 TPU 训练超越 GPT-4 的模型,而 Google 愿意开放其软件生态系统,提供金融服务平均而言,Nvidia 75%的毛利率神话已不再是牢不可破的。曾经是英伟达最大的客户,现在却成为了它最知情的敌人。 (图:每百万个输入/输出代币的成本) 谷歌“占据领先地位” 长期以来,谷歌的 TPU 与其搜索算法一样,都是隐藏的内部核武器。然而,通过半分析获得的供应链信息表明,这一策略已从根本上逆转。最直接的例子来自Anthropic。作为一家能够以尖端模型与 OpenAI 竞争的大型建模公司,Anthropic 已确认将部署超过 100 万个 TPU。这份合同的结构极具破坏性,揭示了谷歌新的“混合销售”模式。在这百万颗芯片中,首批最新TPUv7“Ironwood”的约40万颗将不再通过云端租用,并将以约100亿美元的价格出售给Broadc。由 om 直接出售给 Anthropic。作为 TPU 的长期联合设计师,博通 (Broadcom)通过这笔交易,它从幕后走到了舞台中央,成为了这次算力转移的隐形赢家。剩余的 600,000 个 TPUv7 单元将通过 Google Cloud 租用。这部分交易预计包括高达 420 亿美元的剩余履约义务 (RPO),直接支持近期 Google Cloud 积压的增加。这种行为的迹象非常明显。谷歌不再吝惜出售其下一代计算能力。除了Anthropic之外,Meta、SSI和xAI等领先的AI实验室也在po客户名单中。Tencials。面对这突如其来的攻势,英伟达几乎没有表现出防守姿态。该公司的财务团队最近不得不发表一篇长文,为“循环经济”(即投资初创公司购买自己的芯片)相关问题辩护。这种对市场情绪的敏感反应表明,谷歌的攻击正在让英伟达感到不安。最后一个词是成本。客户的原因奥马尔的叛逃是纯粹的。性能是人工智能军备竞赛中的游戏名称。 TCO(总拥有成本)是生与死的区别。 SemiAnalysis 模型的数据显示,谷歌 TPUv7 相对于 Nvidia 具有显着的盈利优势。从 Google 内部的角度来看,TPUv7 服务器的 TCO 比 NVIDIA GB200 服务器的 TCO 低约 44%。即使 Google 和 Broadcom 取得了收益,Anthropic 通过 GCP 使用 TPU 的 TCO 仍比购买 GB200 低约 30%。这种成本优势不仅是通过降低芯片价格来实现的,还得益于谷歌独特的金融工程创新。换句话说,“超级云厂商覆盖营收”。在构建人工智能基础设施方面存在巨大的术语差异。 GPU集群的经济寿命只有4到5年,而数据中心空间的租约通常为15年或更长。这种差异使得新兴算力服务提供商举步维艰,例如Fluidstack 和 TeraWulf,获得资金。谷歌通过一种“表外”信贷支持(期票)解决了这个问题。换句话说,如果经纪人无法支付租金,谷歌已承诺介入并支付租金。该金融工具直接弥合了加密货币矿工(拥有算力和空间)与人工智能算力需求之间的差距,创建了一个独立于 NVIDIA 系统的低成本基础设施生态系统。不仅是芯片,还有系统。如果说价格竞争是战术层面的冲突,那么系统工程则是谷歌战略层面的护城河。此前,业界有一种观点认为系统比微架构更重要。目前这个结论正在TPUv7上得到验证。单个TPUv7在理论最大计算能力(FLOP)方面略逊于Nvidia的Blackwell,但谷歌通过极端的系统设计缩小了差距。目前,TPUv7“Ironwood”已显着提高在带宽和内存容量方面缩小了与Nvidia旗舰芯片的差距。更重要的是,它采用了更务实的设计理念,通过利用高端型号的计算能量(MFU)来增强现实世界的功率,而不是寻求不可持续的最大频率。谷歌真正的王牌是其专利光互连(ICI)技术。与依赖昂贵的 NVLink 和 InfiniBand/以太网交换机的 Nvidia 不同,Google 使用自主研发的光交换机 (OCS) 和 3D 环形拓扑来构建称为 ICI 的芯片到芯片互连网络。该架构允许将单个 TPUv7 集群 (pod) 集成到典型的 64 或 72 Nvidia 卡集群中。它可以扩展到 9216 个芯片,这比光栅要多得多。 OCS 允许您通过软件定义的网络动态地重新配置拓扑。这意味着如果芯片的特定部分发生故障,网络可以避开故障点并分裂成完整的 3D 环面n毫秒,大大提高集群可用性。此外,在OCS中,光信号不需要直接转换为光电和物理反射,显着降低了功耗和延迟。世界上最强大的两个模型 Gemini 3 和 Claude 4.5 Opus 完全在 TPU 上进行预训练。这本身就是对TPU系统处理“预训练下一代模型”这一最困难任务的能力的决定性确认。打破最后的围墙:软件生态系统的变化。长期以来,外部客户采用 TPU 的最大障碍是软件。虽然世界各地的 AI 开发人员都在使用 PyTorch 和 CUDA,但 Google 仍在继续使用 JAX 语言。但在巨大的商业利益面前,谷歌终于放下了傲慢。 SemiAnalysis 报告指出,谷歌软件团队的 KPI 发生了重大调整,从“服务中”到“开源采用”。之前之后,“超级队长”Google 的 Robert Hundt 明确宣布将全力支持在 TPU 上运行 PyTorch Native。 Google 不再依赖低效的 Lazy Tensor 转换,而是通过 XLA 编译器直接与 PyTorch 的 Eager Execution 模式交互。这意味着习惯使用 PyTorch 的客户(例如 Meta)可以几乎无缝地将其代码迁移到 TPU。与此同时,谷歌开始向 vLLM 和 SGLang 等开源推理框架贡献大量代码,扩大了 TPU 在开源推理生态系统中的作用。这一变化意味着Nvidia更强大的“CUDA护城河”意味着它具备了完整的“兼容性”。而这个“硅谷王座”的争夺才刚刚开始。全文翻译 以下是这份半分析报告的全文翻译(由 AI 翻译):TPUv7:谷歌向 CUDA 之王挥动拳头。 ANDl 护城河的边缘? Anthropic 签署 1GW+ TPU 采购订单。 TP越多购买我们的 Meta/SSI/xAI/OAI/Anthro 时,节省的 GPU 资本支出 (Capex) 越多。下一代 TPUv8AX 和 TPUv8X 与 Vera Rubin 较量。当今世界上最好的两个模型,Anthropic 的 Claude 4.5 Opus 和 Google 的 Gemini 3,在 Google 的 TPU 和 Amazon 的 Trainium 上运行大部分训练和推理基础设施。现在,谷歌正在打破模式,开始直接向许多公司销售物理 TPU 硬件。这是英伟达统治终结的开始吗? AI时代的曙光已经到来。重要的是要了解人工智能驱动的软件的成本结构与传统软件的成本结构有很大不同。芯片微架构和系统架构对于这一创新软件的开发和扩展起着决定性的作用。与软件早期开发时相比,运行人工智能软件的硬件基础设施对资本支出(Capex)和运营支出(Opex)的影响要大得多,因此对毛利率的影响要大得多。维护成本很高。因此,花大力气优化人工智能基础设施以实现人工智能软件的部署比以往任何时候都更加重要。在基础设施方面,在该领域具有优势的公司在部署和扩展人工智能应用程序的能力方面也将拥有强大的地位。谷歌早在2006年就曾宣扬建设人工智能专用基础设施的想法,但问题在2013年达到沸点。谷歌如何使用人工智能?他们意识到,如果想要以这种规模进行部署,则需要将现有数据中心的数量增加一倍。因此,他们开始为 TPU 芯片奠定基础,并于 2016 年开始生产。有趣的是,同年,亚马逊也认识到构建定制芯片的必要性。 2013年,亚马逊推出了Project Nitro,专注于开发优化通用CPU计算和存储的芯片。两家截然不同的公司针对不同的公司优化了其基础设施路径计算时代和软件范例。我们长期以来一直认为,TPU 是世界上最好的 AI 训练和推理系统之一,与“丛林之王”Nvidia 齐名。我们在两年半前写过有关“TPU 霸权”的文章,随着时间的推移,这一论点已被证明是非常正确的。 TPU 的结果不言而喻。 Gemini 3 是世界上最好的型号之一,并且完全支持 TPU。在本报告中,我们仔细研究了谷歌战略的巨大转变,以成功向第三方客户推销 TPU,并成为 Nvidia Merchant Silicon 最新且最具威胁的竞争对手。这份报告将(重新)告知我们的客户和新读者我们快速增长的第三方 TPU 客户所取得的商业成功,从 Anthropic 开始,扩展到 Meta、SSI、xAI,甚至 OpenAI……展示核心逻辑:您购买的 TPU 越多,您在 Nvidia GPU 资本支出上节省的就越多。甚至在推出 TPU 之前,OpenAI 就已经在 com 上获得了高达 30% 的折扣通过竞争威胁来部署集群,从而提高每 TCO(总拥有成本)的性能。描述人工智能基础设施的“循环经济”交易。如需 TPU 硬件堆栈(从芯片到软件层)的完整更新,请重新访问我们对 TPU 的独家深入分析。请。我们讨论了开放软件生态系统的积极发展,以及谷歌在使 TPU 生态系统成为 CUDA 护城河的可行挑战者方面所缺少的关键要素:XLA:TPU 编译器、运行时和 multipod“MegaScaler”代码的 open source.igo 源代码。付费内容解释了这如何影响 Nvidia 的护城河,并将 Vera Rubin 与下一代 TPUv8AX/8X(又名 Sunfish/Zebrafish)进行比较。还讨论了英伟达面临的长期威胁。首先我们来说说这个消息对生态系统的影响。 TPU的性能显然引起了竞争对手的注意。 Sam Altman 承认,随着 Gemini 抢尽风头,OpenAI 面临着“困难的气氛”。英伟达发布了令人放心的公关声明敦促每个人保持冷静并继续前进,并表示它仍然领先竞争对手数英里。我明白为什么。近几个月来,谷歌Deepmind、GCP(谷歌云平台)和TPU联合体不断取得胜利。 TPU 产量显着增加,Anthropic 的 1GW+ TPU 产能增长,对经过 TPU 训练的 SOTA(下一代)Gemini 3 和 Opus 4.5 进行了建模,现在 TPU 目标客户名单不断增加(Meta、SSI、xAI、OAI)。这让 Nvidia 的 GPU 供应链付出了代价,并促使谷歌对其及其 TPU 供应链进行了重大重新评估。谷歌和 TPU 供应链的“突然”崛起令许多人感到惊讶,但 Semi-Analysis 产品的机构订阅者在过去的一年里一直对此充满期待。 (图:英伟达在 TPU、Trainium 和基础设施篮子方面的敞口比较)英伟达处于守势的另一个原因是,该公司通过资助烧钱的人工智能初创公司以及本质上使用额外的步骤来支持“循环经济”钱从一个口袋转到另一个口袋。相信这一点的怀疑者数量正在增加。虽然我们认为这种观点有偏见,但它显然引起了 Nvidia 内部的共鸣。财务团队已经给出了详细的答复。以下转载。循环融资被指责为不可持续的商业行为:NVIDIA 参与了一项 610 亿美元的循环融资计划,该计划投资于 AI 初创公司,初创公司承诺云支出,云服务提供商 (CSP) 和初创公司购买 NVIDIA 硬件,NVIDIA 确认了收入,但基础经济活动(产生利润的 AI 应用)现金从未回到原点,因为它仍然不足。答:首先,NVIDIA 的战略投资仅占 NVIDIA 收入的一小部分,也是全球私人资本市场每年筹集的约 1 万亿美元的一小部分。今年第三季度和迄今为止,NVIDIA 分别投资了 37 亿美元和 47 亿美元股权公司,分别占收入的 7% 和 3%。 NVIDIA 战略投资组合公司主要从第三方金融提供商而非 NVIDIA 获得资金。其次,NVIDIA对其战略投资完全透明,这些投资作为长期资产和有价证券记在资产负债表上。这在损益表中报告为其他收入和支出 (OI E),在现金流量表中报告为投资活动产生的现金流量。第三,NVIDIA战略投资组合中的公司收入正在快速增长,为盈利提供了途径,并满足了客户对人工智能应用的强劲潜在需求。 NVIDIA 的战略投资组合公司的收入主要来自外部客户,而不是来自 NVIDIA。我们认为更现实的解释是,NVIDIA 打算通过提供股权投资来保护其主导地位,而不是通过降价来保护其主导地位。散布投资者恐慌情绪。下面,我们概述了 OpenAI 和 Anthropic 的交易,并展示了尖端研究机构如何通过购买或威胁购买 TPU 来降低 GPU 总拥有成本 (TCO)。 (表:您购买的 TPU 越多,节省的 GPU 成本就越多)来源:SemiAnaracy TCO 模型、Anthropic 和 OpenAI OpenAI 尚未实施 TPU,但已经在所有实验室的 NVIDIA 机群中实现了高达 30% 的节省。这表明 TPU 的 TCO 性能优势如此之大,以至于在启用 TPU 之前采用 TPU 的好处已经显现出来。我们的加速器行业模型、数据中心行业模型和核心研究订户早在这一消息宣布之前就认识到了该行业的影响,并成为市场共识。 8月初,我们与加速器型号客户分享,预计2026年供应链中的Broadcom/Google TPU订单将大幅上修。同时还透露了这一增长的原因命令是谷歌将开始向外部多个客户销售该系统。 9 月初,我们透露我们最大的外部客户之一是 Anthropic,需求至少 100 万个 TPU。 Anthropic 和 Google 在 10 月份正式证实了这一点。我们还注意到,Meta 在 11 月 7 日成为 TPU 大客户,比其他公司提前几周。此外,我们还谈论其他客户。因此,我们的机构客户预计人工智能交易中将出现最大的**绩效差异**。 Semi-Analysis 是第一个发现所有这些知识的公司,因为没有其他研究公司可以将从工厂到供应链、从数据中心到实验室的各个点连接起来。回到正题。谷歌大规模的 TPU 外包推动与明星 Anthropic TPU 达成交易。虽然谷歌长期以来一直与 Nvidia 的 AI 硬件竞争,但它主要支持谷歌的内部工作负载。据谷歌称,即使在 TPU 可用之后2018 年的 GCP 客户,他们从未完全商业化。这种情况正在开始改变。近几个月来,谷歌动员了整个堆栈,通过 GCP 向外部客户提供 TPU,并作为商业供应商销售完整的 TPU 系统。这家搜索巨头的目标是利用强大的内部芯片设计能力,成为真正差异化的云提供商。此外,这与我们的旗舰产品 Marquis Customer Anthropic 摆脱对 NVDA 依赖的持续势头是一致的。 (图片:Anthropic FLOP Portfolio)与 Anthropic 的协议标志着这一势头的一个重要里程碑。据我们了解,GCP 首席执行官 Thomas Kurian 在谈判中发挥了核心作用。谷歌很早就承诺在 Anthropic 的融资轮中积极投资,并同意放弃投票权并将所有权限制为 15%,以将 TPU 的使用扩展到谷歌内部之外。基金会实验室中前 DeepMind TPU 人才的存在促进了他的策略是,允许 Anthropic 在包括 TPU 在内的各种硬件上训练 Sonnet 和 Opus 4.5。作为逐栋建筑跟踪人工智能实验室项目的一部分,Google 为 Anthropic 建造了以下广泛的设施。 (图片:数据中心行业模型)除了通过 GCP 租赁 Google 数据中心的容量外,Anthropic 还将在其设施中部署 TPU,从而使 Google 能够作为真正的商业硬件提供商与 Nvidia 直接竞争。关于 1M TPU 拆分:交易第一阶段将交付 400,000 单位 TPUv7 铁木成品机架,价值约 100 亿美元。 Broadcom 将直接出售给 Anthropic。 Anthropic 是博通最新财报电话会议中提到的第四个客户。 Fluidstack 是 ClusterMax Neocloud 金牌提供商,作为外包给管理物理服务器的 Anthropic 处理现场配置、布线、验收测试和远程支持。数据中心基础设施将由 TeraWulf (WULF) 提供和密码挖掘(CIFR)。剩余的 600,000 个 TPUv7 单元将通过 GCP 租赁,考虑到 GCP 第三季度报告的订单增加 490 亿美元,本次交易的**剩余履约义务 (RPO)** 估计为 42,000 百万美元。大多数。我们相信,与 Meta、OAI、SSI 和 xAI 的额外协议可以在未来几个季度为 GCP 提供额外的 RPO 和直接硬件销售。尽管内部和外部需求巨大,但谷歌未能像预期的那样快速推出 TPU。谷歌对硬件供应的控制比其他尚未“取悦”詹森(黄)的超大规模企业有更多的控制权,但谷歌的主要瓶颈是电力。当其他超大规模企业扩展其站点并获得大量托管容量时,谷歌的行动却进展缓慢。我们认为核心问题在于合同和控制。所有新的数据中心提供商都需要主服务协议(MSA)。这些都是数百万美元不幸的是,多年期合同不可避免地充斥着官僚主义。然而,谷歌的进程特别缓慢,从最初的讨论到签署MSA往往需要长达三年的时间。谷歌的解决方案对于希望迁移到人工智能数据中心基础设施的 Neocloud 提供商和加密货币矿工具有重大影响。谷歌不直接出租,但提供信用担保。提供顶部。这意味着,如果 Fluidstack 无法支付数据中心费用,谷歌将介入并付款。这是一份表外“贷款文件”。 (图:Fluidstack Commerce 概述)像 Fluidstack 这样的 Neocloud 灵活且敏捷,可以更轻松地以“转型的加密货币矿工”的身份与新数据中心提供商打交道。这种机制是我们看好加密货币挖矿行业的关键。他特别提到了包括IREN和Applied Digital在内的各种公司,当时股价在年初大幅下跌。矿工的机会在于是一个简单的动态。数据中心行业面临着严重的电力限制,加密货币矿工已经通过电力购买协议(PPA)和现有的电力基础设施来控制容量。预计未来几周和几个季度将达成更多交易。谷歌如何重塑 Neocloud 市场 在 Google、Fluidstack 和 TeraWulf 达成交易之前,我在 Neocloud 市场上从未见过纯粹基于表外“借据”的交易。此次交易后,我们认为它已成为新的事实上的标准融资模式。这解决了 Neocloud 在保护数据中心容量和发展业务方面的一个主要问题。这意味着vGPU集群的使用寿命和经济寿命为4-5年。大型数据中心的租赁期限通常为 15 年或更长,投资回收期约为 8 年。这种期限错配使得 Neocloud 提供商和数据中心提供商的融资项目变得非常复杂。豪维r,我们认为,随着“控制利润的超大型厂商”的崛起,融资问题已经得到解决。新一波的增长已经到来,我们希望 Neocloud 行业能够欢迎它。查看我们的加速器和数据中心模型以了解您的主要受益者。现在这就是 Anthropic 交易背后的故事和原因,让我们进入硬件部分。此外,詹森还是一名投资者。 CoreWeave、Nebius、Crusoe、Together、Lambda、Firmus 和 Nscale 等 Neocloud 有明确的动机不在其数据中心内采用竞争技术,这使得 TPU、AMD GPU 甚至 Arista 开关都被禁止。这在 TPU 托管市场留下了巨大的空白,目前由加密货币矿工和 Fluidstack 填补。在接下来的几个月中,我们预计更多的 Neocloud 将在寻求扩大 TPU 托管机会和确保最新、最好的 Nvidia Rubin 系统的分配之间做出艰难的决定。 TPUv7 Ironwood:为什么 Anthropic 和其他客户需要TPU吗?答案很简单。这是一个伟大系统中的强大芯片,这种组合为 Anthropic 提供了极具吸引力的性能和总体拥有成本。两年半前,我们写过有关 Google 计算基础设施的优势的文章。即使该芯片理论上落后于 Nvidia,但谷歌的系统级工程使 TPU 堆栈能够与 Nvidia 的性能和成本效益相匹配。当时,我们认为“Nvidia的GB200系统代表着Nvidia成为真正的系统公司向前迈出了一大步,设计了完整的服务器而不仅仅是内部芯片封装。当我们谈论GB200在机架级互连方面的大规模创新时,被低估的是谷歌自2017年TPU v2以来一直在机架内和机架之间扩展TPU。在报告的后面,我们分析了Nvidia NVLink的唯一真正竞争对手谷歌。它详细分析了ICI 扩展网络目前被认为是 Google 最新的 Gemini 3 型号。最先进、最前沿的法学硕士。与 Gemini 的所有先前版本一样,Gemini 完全支持 TPU。TPU 功能的具体证明以及 Google 广泛基础设施的优势。尽管当今的焦点通常集中在推理和训练后硬件上,但预训练下一代模型仍然是人工智能硬件中最困难且最耗费资源的挑战。 TPU平台确实通过了这个测试。这与我们的竞争对手形成了鲜明的对比:2024 年 5 月 GPT-4o 之后,OpenAI 的顶尖研究人员尚未成功进行大规模预训练,以广泛用于新的前沿模型。这突显了 Google 的 TPU 机群已成功克服的一个主要技术障碍。新模型的亮点包括工具调用和代理功能的显着改进,特别是在具有长期经济价值的任务中。自动售货机基准测试是一项评估,旨在衡量模型长期运营业务的能力嗯,Gemini 3 通过将竞争对手置于模拟自动售货机企业主的角度来摧毁其竞争对手。 (图:自动售货机融资趋势)此次发布不仅带来了改进的功能,还带来了新产品。 Antigravity,是收购前 Windsurf CEO Varun Mohan 及其团队而诞生的产品,是 Google 对 OpenAI Codex 的回应,Gemini 正式进入“振动编码”代币消费战。对于谷歌来说,悄悄介入并在最棘手的硬件问题之一上建立性能优势,对于一家核心业务不是(或者我应该说从来都不是)硬件业务的公司来说,确实是一项令人印象深刻的壮举。微架构仍然很重要:BlackwellIronwood 的推论或“系统比微架构更重要”的方法是,虽然谷歌正在突破系统和网络设计的界限,但 TPU 芯片本身并没有那么创新。从那时起,TPU 芯片已经取得了长足的进步。分代。从一开始,谷歌的设计理念就比英伟达的芯片更为保守。从历史上看,TPU 的最大理论 FLOP 数和内存规格都比 Nvidia GPU 同类产品低得多。这有三个原因。首先,Google 在内部非常重视“RAS”(可靠性、可用性和可服务性)基础设施。 Google 愿意牺牲整体性能来提高硬件正常运行时间。以极限运行设备会导致较高的硬件死亡率,这对系统停机时间和动态备件方面的 TCO 产生重大影响。毕竟,与性能相比,不可用的硬件具有无限的总拥有成本。第二个原因是,到 2023 年,谷歌的主要人工智能工作负载将是为其核心搜索和广告资产提供动力的推荐系统模型。 RecSys 工作负载的计算强度远低于 LLM 工作负载,因此传输的每一位数据都需要触发次数更少。 (图:Reco 与 LLM)第三点归结为正在营销的“理论峰值失败率”数字的有用性以及如何利用它们。被操纵。 Nvidia 和 AMD 等商业 GPU 供应商希望销售其芯片的最高性能规格。这会激励您将营销失败率提高到尽可能高的价值。事实上,这些数字是不可持续的。另一方面,TPU 主要供内部使用,夸大外部规格的压力要小得多。这具有重要意义,因此我将更详细地解释它。礼貌的意见是 NVFS(动态电压频率缩放)dia 更好,因此他们很乐意仅报告最大规格。进入LLM时代,谷歌的TPU设计理念明显发生了变化。我们看到根据LLM设计的最后两代TPU,TPUv6 Trillium (Ghostlite)和TPUv7 Ironwood (Ghostfish),反映了这种变化。如果你看从下图中可以看到,TPUv4和v5的计算性能远低于Nvidia当时的旗舰型号。 TPUv6 在 FLOP 方面非常接近 H100/H200,但比 H100 落后两年。随着 TPU v7 的推出,这一差距正在进一步缩小,因为服务器将在短短几个季度内推出,并且将提供几乎相同水平的理论最大 FLOP。 (图示:TPU 与 Nvidia TFLOP 和系统可用性(BF16 密集) 是什么推动了这些性能改进?原因之一是 Google 在 TPU 投产后就开始发布,而不是在下一代产品推出后发布。此外,TPU v6 Trillium 与 TPU v5p 构建在同一 N5 节点上,并具有相似的硅面积,但可以在显着降低功耗的情况下将最大理论 FLOP 提高 2 倍。对于 Trillium, Google 将每个脉动阵列的大小从 128 x 128 块增加到 256 x 256 块,这增加了矩阵大小。提高计算能力。 (表:Google TPU 芯片规格)Trillium 也是最新的“E”(lite)SKU,这意味着它仅配备两个 HBM3 站点。 Trillium 缩小了与 Hopper 的计算差距,但其内存容量和带宽比 H100/H200 小得多,仅使用 2 d 电池。e HBM3 分别与 5 和 6 堆栈的 HBM3 和 HBM3E 相比。这使得初学者很难使用,但正确地对模型进行分片很重要。然而,如果您利用所有廉价的 FLOPS,Trillium 实现的性能 TCO 是无与伦比的。 (图:TPU v6 (Trillium) 与 H100 (SXM))TPU v7 Ironwood 是下一个版本,谷歌在 FLOP、内存和带宽方面几乎完全缩小了与其旗舰 Nvidia GPU 同类产品的差距,尽管它比 Blackwell 晚一年上市。与8-Hi HBM3E容量相同,仅在FLOP和内存带宽方面比GB200略有不足,但与GB200相比有很大差异GB300 与 288 GB 12-Hi HBM3E。 (图表:TPU v7(Ironwood)与 GB200/GB300) 理论上的绝对性能很重要,但真正重要的是实际总拥有成本(TCO)性能。谷歌通过 Broadcom 购买 TPU,并支付了高额加价,但这比 Nvidia 的收入要低得多,Nvidia 不仅销售 GPU,还销售整个系统,包括 CPU、交换机、NIC、系统内存、电缆和连接器。从 Google 的角度来看,这使得采用全 3D 环形配置的每个 Ironwood 芯片的全部 TCO 比 GB200 服务器低约 44%。这足以补偿最大 FLOP 和最大内存带宽最多 10% 的缺口。这是从 Google 的角度来看的,并且基于他们购买 TPU 服务器的价格。 (表:按 TCO 计算的 Nvidia 和 TPU SKU 性能比较)那么,当 Google 增加利润时,第三方客户会发生什么情况呢?我们假设,即使 Google 通过向第三方客户出租 TPU 7 来盈利,t每小时TCO可比GB200成本降低约30%,比GB200.和GB300成本降低约41%。我们认为这反映了 Anthropic 通过 GCP 的定价。将会出现。 (图:每小时总成本(美元/小时/GPU)比较) 为什么 Anthropic 要进行 TPU 比较 理论失败只是故事的一部分。重要的是有效的 FLOP,因为在现实世界的工作负载中很少达到最大值。实际上,在考虑通信开销、内存泄漏、功率限制和其他系统影响时,Nvidia GPU 通常只能达到理论峰值的一小部分。训练的一个好的经验法则是 30%,但使用情况会根据您的工作量而有所不同。大部分差距是由于软件和编译器效率造成的。 Nvidia 在这方面的优势来自于其 CUDA 护城河及其广泛的可用开源库,可帮助您高效运行工作负载并实现高性能、FLOP 利用率和内存带宽。 TPU软质ware stack 正在开始改变,但它并不那么容易使用。在 Google 内部,TPU 受益于优秀的内部工具,这些工具不向外部客户端公开,导致开箱即用的性能较差。然而,这仅适用于小型或懒惰的用户,而 Anthropic 则不是这些。 Anthropic 拥有强大的工程资源和前 Google 编译器专家,他们了解 TPU 堆栈及其模型架构。您可以投资定制内核来提高 TPU 效率。结果是明显更高的 MFU 和每 PFLOP 更好的性价比。我们相信,尽管销售的最大 FLOP 较低,但 TPU 能够实现比 Blackwell 更高的已实现模型 FLOP 利用率 (MFU),这意味着 Ironwood 的有效 FLOP 更高。原因之一主要是Nvidia和AMD出售的GPU FLOP明显被高估了。即使在旨在最大限度地提高 GEMM(一种与实际工作负载相去甚远的形状)上性能的测试中,Hopper 也只是能够达到峰值的80%左右,Blackwell下降了70%左右,AMD的MI300系列则在50%-60%范围内。限制因素是电力传输。这些芯片无法维持用于最大计算处理的时钟速度。 Nvidia 和 AMD 已经实现了动态电压和频率缩放 (DVFS)。这意味着芯片的时钟频率是根据功耗和发热情况动态调整的,而不是实际可以维持的稳定时钟频率。 Nvidia 和 AMD 选择他们可以提供的最高时钟频率(即使它是非常间歇性的)来计算理论最大 FLOP(或每周期/ALU x ALU 数 x 每秒周期,或时钟频率)。还使用了其他技巧,例如使用全零的张量运行 GEMM,因为 0x0=0 不需要晶体管从 0 切换到 1,从而减少了每次操作的功耗。当然,在现实世界中,零填充张量不会乘以伊普利。从 Google 的角度来看,更低的 TCO 与更高的有效 FLOP 利用率相结合,可以大大降低每个有效 FLOP 的美元成本,GB300 的盈亏平衡点高达 15% MFU,而 30% MFU。这意味着即使 Google(或 Anthropic)能够实现 GB300 FLOP 利用率的一半,它仍然是等价的。当然,凭借Google编译器工程师的精英团队以及他们对模型的深入了解,我们可以在TPU上实现40%的MFU。这意味着每次分数的成本可大幅降低高达 62%。有效的培训计划。 (图:不同有效训练密集 MFU / PFLOP FP8 下的 TCO(每 Eff PFLOP 美元/小时))但是,如果我们关注 600,000 个租赁 TPU,并在此分析中包括 Anthropic 支付的最高 TCO(即包括 Google 利润叠加),则 GCP 的 Anthropic 成本估计为每 TPU 小时 1.60 美元,这会降低 TCO 收益。 Anthropic 相信,由于其对性能的关注,它可以在 TPU 上实现 40% 的 MFU曼斯优化以及 TPU 出售的 FLOP 本质上更加现实这一事实。与 GB300 NVL72 相比,Anthropic 的每有效 PFLOP 总拥有成本降低了约 52%,令人印象深刻。每 FLOP 有效 TCO 的平衡在于 anthropic extract 的 MFU,与 GB300 基准相比降低了 19%。这意味着虽然 Anthropic 可以容忍与基础 GB300 相比显着的性能缺陷,但训练 FLOP/TCO 性能将保持与基础 Nvidia 系统相同。 (图:跨多个 MFU 的 TCO/有效训练密集 FP8 PFLOP)FLOP 并不是性能的全部,内存带宽对于推理非常重要,尤其是在带宽密集型解码步骤中。毫不奇怪,TPU 的单位内存带宽成本也显着低于 GB300。有大量证据表明,当消息大小较小时,TPU 的内存带宽利用率高于 GPU(例如,加载单个专家层时为 16 MB 到 64 MB)。 (图:TCO/内存带宽(TB/每秒/小时美元))所有这些都转化为训练和服务模型的高效计算。 Anthropic 的 Opus 4.5 版本继续专注于 codiversify 并在 SWE 中创造了新记录。主要的惊喜是 API 的价格下降了约 67%。这种价格下降,加上比 Sonnet 更低的模型冗余和更高的代币效率(达到 Sonnet 最高分所需的代币减少了 76%,超过 4 分所需的代币减少了 45%),使 Opus 4.5 成为编码用例的绝佳模型,并且由于 Sonnet 目前占代币组合的 90% 以上,这意味着它可以有效提高代币的实际价格。人为的。 (图:人择 API 定价) (图:SWE 基准分数与所需总生产代币) Google 在利润上穿针引线 在为外部客户定价时,Google 必须“穿针引线”以平衡自己的价格盈利能力,同时为客户提供有竞争力的服务。打开。我们对人为价格的估计处于我们听到的外部价格范围的下限。像 Anthropic 这样的主要客户通过下大订单为我们的软件和硬件路线图提供了宝贵的意见,因此我们期望有竞争力的价格。 Nvidia 惊人的 4 倍提价(约 75% 毛利率)提供了很大的定价灵活性,但博通却吸走了很多氧气。作为 TPU(系统 BOM(物料清单)中最大的组件)的联合设计者,Broadcom 从该芯片中获得了巨额利润。尽管如此,谷歌仍有很大的空间来赚取巨额利润。通过将 GCP 人类商务与其他基于 GPU 的大型云商务进行比较,我们可以看到这一点。请注意,这是针对 600,000 个租赁的 TPU,Anthropic 预付了剩余的 400,000 个 v7 TPU 芯片。在这些假设下,TPU v7 的经济性表现出比我们所见过的任何其他规模最大的基于 GPU 的云更好的息税前利润率所见,只有 OCI-OpenAI 可以接近。即使将博通的利润叠加在芯片级物料清单上,谷歌仍然可以获得比商品化 GPU 交易更好的利润和利润。在这里,TPU堆栈使GCP成为真正差异化的CSP(云服务提供商)。另一方面,A.S.像微软 Azure 这样的公司,其 IC 项目正在苦苦挣扎,它们只是从事基础硬件租赁业务,回报也较为平庸。 (表:顶级人工智能云产品的比较) TPU 系统和网络架构 到目前为止,我们已经了解了 TPU 与 Nvidia GPU 在单芯片规格和缺点方面的比较。现在,让我们回到讨论系统。这就是 TPU 的功能真正开始出现差异的地方。 TPU最显着的特点之一是通过ICI协议实现的极大的全局尺寸。 TPU吊舱整体尺寸达到了9,216个Ironwood TPU,吊舱尺寸大,一直是一个特点自 2017 年 TPUv2 以来,扩展到 256,1024 个芯片的完整集群大小。让我们从机架级别开始,这是每个 TPU Super Pod 的基本组件。 Ironwood 框架架构(图片:Frame System)TPU 框架在过去几代中都遵循类似的设计。每个机架由 16 个 TPU 托盘组成。它由八个主机 CPU 托盘(取决于冷却配置)、ToR 交换机、电源和 BBU 组成。 (图片:TPU v7 Ironwood Rack)每个 TPU 托盘由一个 TPU 板和四个 TPU 芯片组组成。每个 Ironwood TPU 都有四个用于 ICI 连接的 OSFP 笼和一个用于主机 CPU 连接的 CDFP PCIe 笼。谷歌自 2018 年 TPU v3 以来一直在实施机架式水冷 TPU,但当时仍有几代 TPU 设计为风冷。水冷机架和风冷机架的主要区别在于,风冷机架的TPU托盘与CPU托盘的比例为2:1,而水冷机架的TPU托盘与CPU托盘的比例为1:1。 TPU液冷创新设计其特点是冷却剂流量由阀门主动控制。这使得流量可以根据每个芯片当时的工作负载量进行调整,从而提高冷却效率。谷歌的TPU也长期以来一直采用垂直供电,TPU的VRM模块位于PCB板的另一侧。这些 VRM 模块还需要冷板进行冷却。总的来说,TPU机架设计比Nvidia Oberon NVL72设计更密集、简单得多,后者使用背板连接GPU和扩展交换机。 TPU 托盘之间的所有扩展连接均使用外部铜缆或光纤电缆进行。这将在下面的 ICI 部分中讨论。 TPU 和 CPU 托盘之间的连接也使用 PCIe DAC 电缆进行。芯片到芯片互连 (ICI):扩展扩展世界的关键 Google TPUv7 的 ICI 扩展网络的基本组件是由 64 个 TPU 组成的 4x4x43D 环面。每个 64 TPU 4x4x4 立方体映射到 64 TPU物理机架。这是一个理想的尺寸,因为它允许所有 64 个 TPU 装入物理机架中,同时彼此电气连接。 (图:TPU v7 – 64 TPU 4x4x4 逻辑立方体配置)TPU 以 3D 环面配置相互连接,每个 TPU 总共连接到 6 个相邻的 TPU(X、Y 和 Z 轴上每个逻辑上相邻的 2 个 TPU)。每个 TPU 始终通过计算托盘上的 PCB 走线连接到其他两个 TPU,但根据 TPU 在 4x4x4 立方体内的位置,它通过直连铜缆 (DAC) 或光纤收发器连接到其他四个相邻的 TPU。 4x4x4 立方体内部的连接使用铜缆进行,而 4x4x4 立方体外部的连接(包括与立方体另一侧和相邻 4x4x4 立方体的连接)使用光收发器和 OCS(光路交换机)。在下图中,您可以看到这是一个 3D 环形网络。 TPU 2, 3, 4 (Z平面+(上图)使用800G opt逻辑收发器,并通过 OCS 路由并通过环绕连接返回到相对的 Z 平面 TPU 2、3 和 1(在 Z 平面中)。 (图:TPU 单元连接)如上所述,除了 siempre 通过 PCB 走线连接的两个相邻 TPU 之外,TPU 还通过 DAC、收发器或两者的组合连接到其他四个相邻 TPU,具体取决于其在 4x4x4 立方体中的位置。 4x4x4立方体内部的TPU仅使用DAC连接到其他4个相邻的TPU,立方体表面的TPU通过3个DAC和1个光收发器连接,立方体边缘的TPU通过2个光收发器和2个DAC连接,角落处的TPU通过1个DAC和3个光收发器连接。通过查看立方体的“外部”面有多少个面,您可以记住特定 TPU 使用了多少个收发器。 (图示:4x4x4 立方体中的 TPU 位置)上图和下表总结了可用于得出每个 TPU 1.5 个光收发器的 TPU v7 比率的不同类型 TPU 位置的数量。这些收发器连接到光路开关 (OCS),从而允许 4x4x4 立方体之间的连接。这将在下一节中详细解释。 (表:Google TPU v7 3D Torus 连接率) ICI Optics Google 采用软件定义的网络方法通过光路交换机 (OCS) 管理网络路由。 NxN OCS基本上是一个巨大的车站,有N条上行线路和N条出站线路。您可以从任何到达的火车换乘任何出发的火车,但这必须在车站重新配置。火车不能“循环”或被送回 N 个其他传入轨道。它应该只路由到 N 条出线中的一根。这种方法的优点是它允许您定制网络以适应各种工作负载。最多可以将 9,216 个旧芯片拆分并组装成更小的 TPU 逻辑段。对大型集群进行分片通过在网络故障周围重定向 ICI 路由来证明集群可用性。与电子分组交换 (EPS) 交换机(例如 Arista Tomahawk 5)不同,其中固定的总带宽被划分为多个较小的带宽端口,OCS 允许任何带宽的光纤连接到其端口。 OCS 还具有比 EPS 更低的延迟,因为进入 OCS 的光信号只是从输入端口反射到输出端口。 EPS要求光信号进入交换机时转换为电信号。这就是 OCS 通常比 EPS 更节能的主要原因。此外,虽然 EPS 允许数据包从任何端口路由到任何端口,但 OCS 只能将“输入”端口路由到其他“输出”端口。 (图片:OCS 内部结构) OCS 端口仅路由一束光纤。这对于标准双工收发器来说是一个挑战。由于带宽是通过多根光纤传输的,因此有效基频和 OCS 带宽会减少捆绑。为了解决这个问题,可以使用FR光模块将所有波长整合成一个光纤束,然后将它们连接到OCS端口。阿波罗计划创新地分两步实现了这一目标。首先,使用粗波分复用 (CWDM8) 复用八个波长(每个 100G 通道一个波长),通过一对光纤而不是八对光纤传输 800G。其次,光环行器集成到波分复用(WDM)收发器中,实现全双工数据流,并将所需的光纤对从光纤束减少到单光纤束。 (图片:环行器原理) 环行器通过将Tx和Rx光纤束组合成单个光纤束,形成双向链路。光纤进入收发器并将其发送到OCS交换机。多个 64 TPU 密钥立方体连接 Google 的 ICI 增强网络是独一无二的,因为多个 64 TPU 4x4x4 立方体可以在 3D 环面配置中连接创造大的全球规模。 TPUv7 的最大全局大小为 9216 个 TPU,但 Google 目前支持以几种不同的切片大小配置 TPU,从 4 个 TPU 到 2048 个 TPU。 (表:支持的配置)虽然 Google 可以创新性地部署可扩展至令人印象深刻的 9,216 个 TPU 的集群,但使用逐渐增大的块大小(在任何给定时间最多可达约 8,000 个 TPU)运行训练工作负载的优势会减弱。这是因为较大的块大小更容易出现故障和中断,并降低分段可用性(定义为 ICI 集群可以形成分段连续 3D 环形的时间百分比)。 (图示:使用和不使用 OCS 时的 Goodput 与 CPU 主机可用性)对于完全适合 4x4x4 立方体的部分,您可以使用机架中的铜互连和立方体的面/边缘/角上的光学收发器简单地对这些部分进行切片,以根据需要环绕并完成 3D 环面。了解如何环绕和立方体间连接有效,让我们看看如何在 4x4x4 拓扑中创建 64 个 TPU 段。您可以使用相应的。要构建此拓扑,请将 64 个 TPU 机架(包含 64 个 TPU 单元)排列成 4x4x4 立方体。 4x4x4 立方体中的八个 TPU 可以使用铜缆完全连接到六个邻居。如果 TPU 在特定轴上没有内部邻居,则 TPU 会盘绕并连接到轮毂另一侧的 TPU。例如,TPU 4,1,4 在 Z+ 方向上没有内部邻居,因此使用 800G 光收发器连接到分配给 Z 轴的 OCS,并配置 OCS 将此连接指向立方体的 Z 侧,即 TPU 4,1,1。在 Y 方向上,TPU 1、1、1 通过光收发器连接到 Y 轴 OCS,并链接到 TPU 1、4、1 的 Y+ 侧。(图:TPU v7:64 个 TPU 切片的 4x4x4 拓扑)4x4x4 立方体的每个面由 16 个不同的 OCS 连接(每个 TPU 每个面一个 OCS)。例如,在下图中,TPU 4,3,2 连接到 X+ 平面中 OCS X,3,2 的输入侧。 OCS X,3,2 的输入端也连接到集群中所有存储桶的相同 TPU 索引(这次仅在 X 平面)。因此,它连接到集群中144个桶中的TPU 1,3,2。下图显示了立方体 A X+ 侧的 16 个 TPU 如何通过 16 个 OCS 连接到立方体 B X 侧的 16 个 TPU。这些连接允许您将任何立方体的“+”面连接到任何其他立方体的“-”面,从而在形成切片时提供完整的立方体替换。有两个限制需要简要说明。首先,在给定平面上具有索引的 TPU 不能直接连接到另一个索引。因此,您无法将 TPU 4、3 和 2 配置为连接到 TPU 1、2 和 3。 其次,由于 OCS 本质上充当配线架,因此连接到输入侧的 TPU 无法“返回”到 anoTPU 还连接到 OCS 的输入侧。例如,您无法将 TPU 4,3,2 连接到 TPU 4,3,3。因此,“+”侧的TPU不能连接到其他立方体的“+”侧,“-”侧的TPU不能连接到其他立方体的“-”侧。 (图:TPU v7 连接到 OCS)让我们放大一点,看看如何配置 4x4x8 拓扑。 child在设置中,stepelo 是这样的:通过沿 Z 轴连接两个 64 TPU 4x4x4 立方体来扩展切片。在这种情况下,OCS 重新配置 TPU 4,1,4 连接的光端口,使其连接到 TPU 4,1,5,而不是像独立 4x4x4 拓扑中那样返回到 TPU 4,1,1。以此类推,两个 4x4x4 TPU 立方体的 Z 侧和 Z+ 侧有 16 个光纤连接,总共 64 个光纤束连接到 16 个 Z 轴 OCS。需要提醒读者的是,如下所示的立方体 A 和 B 不一定在物理上彼此相邻放置。相反,它们通过 OCS 连接,每个可能位于数据中心内完全不同的位置。 (图:TPU v7:128 个 TPU 切片的 4x4x8 拓扑)接下来,我们转向更大的拓扑,即 16x16x16 拓扑,具有 4096 个 TPU。该拓扑总共使用 48 个 OCS 连接 64 个立方体,每个立方体有 64 个 TPU。在下图中,每个 mul 立方颜色代表一个具有 64 个 TPU 的 4x4x4 立方体。例如,考虑右下角的 4x4x4 立方体。该立方体使用 OCS 沿 Y 轴连接到相邻立方体。全球规模最大的 9,216 个 TPU 使用 144 个 4x4x4 立方体构建,每个立方体需要 96 个光学连接,总共需要 13,824 个端口。将此总端口需求除以 288(每个 OCS 144 个输入端口和 144 个输出端口)意味着需要 48 个 144×144 OCS 来支持这一最大全球规模。 (图示:TPU v7 4,096 TPU 切片,具有 16x16x16 拓扑) 为什么使用 Google 的 ICI 3D 环形架构?除了花费无数时间绘制所有奇特的立方体图之外,bGoogle 专有的 ICI 增强网络的优势是什么?世界大小:最明显的优势是 TPUv7 Ironwood 支持的最大世界大小为 9,216 个 TPU。由于良好性能降低的缺点,使用最大服务大小为 9,216 个稀有 vez,但可以并且经常使用数千个 TPU 的部分。这比商业加速器市场和其他定制芯片供应商常见的 64 或 72 个 GPU 全局尺寸大得多。可重新配置性和可替代性:OCS的使用意味着网络拓扑本质上支持网络连接的重新配置,支持许多不同的拓扑(理论上有数千种拓扑)。 Google 的文档网站列出了 10 种不同的组合(本节上方的图像),但这些只是最常见的 3D 切片形状。 ——还有很多其他的方法。相同大小的部分可以以不同的方式重新排列。在下面显示的扭曲 2D 环面的简单示例中,您可以了解跨越不同的 x 坐标索引而不是相同的 x 坐标如何减少最坏情况下的跳跃计数和最坏情况的二分带宽。这有助于提高整体性能。 TPUv7 集群变形为 4x4x4 立方体层。 (图形:常规 2D 环面和扭曲 2D 环面)可重构性还为各种并行性打开了大门。在 64 或 72 个 GPU 的全局范围内,不同的并行性组合通常限制为 64 倍。当涉及 ICI 扩展网络时,有多种可能性来实现与数据并行性、张量并行性和管道并行性的所需组合完全匹配的拓扑。事实上,OCS 允许您将任何立方体的“+”面连接到任何其他立方体的“-”面,这意味着立方体是完全可替换的。切片可以由任意一组立方体组成。因此,即使用户需求或使用方式出现故障或变化,也不妨碍新的形成拓扑切割。 (图示:TPUv4 电路交换可重构性) 低成本:Google 的 ICI 网络比大多数内部交换网络的成本更低。尽管由于使用循环器,所使用的 FR 光学器件可能会稍微昂贵一些,但网状网络减少了所需交换机和端口的总数,从而降低了交换机之间的连接成本。 (表:网络扩展成本比较) 低延迟和优越的局部性:在 TPU 之间使用直接链路可以显着减少物理上彼此靠近或重新配置为直接相互连接的 TPU 的延迟。让 TPU 彼此靠近还可以改善数据局部性。数据中心网络 (DCN):扩展到 9216 个 TPU 以上 数据中心网络 (DCN) 是一个与 ICI 无关的网络,充当整体后端和前端网络。连接现在更大的域(TPUv7 集群有 147,000 个 TPU)。正如我们之前关于阿波罗计划的文章中所解释的,谷歌建议用 Paloma 光路交换机 (OCS) 取代传统“Clos”架构中包含电子分组交换 (EPS) 的核心层。谷歌的DCN由光交换数据中心网络互连(DCNI)层组成,该层结合了多个聚合块,每个聚合块连接多个由9216个TPU组成的ICI集群。 2022 年,Google 的 Apollo 项目提出了 DCN 架构,描述了在 TPUv4 Pod 中使用 136×136 OCS 交换机。外径尺寸为4096 TPU。 DCNI 级别的 OCS 交换机分为 4 个 Apollo 区域,每个区域最多包含 8 个机架,其中包含 8 个 OCS 交换机,总共 256 个 OCS 交换机。对于 Ironwood,同一网络上最多 147 个 为了支持 TPUv7,我们假设 OCS 端口数量几乎翻倍,而不是增加 OCS 交换机的最大数量。下图显示了包含 256 个 300×300 OCS 交换机的 32 个机架的 Ironwood DCN 网络的外观。假设没有超额通过每个聚合块的列之间的描述,最多可以将 16 个 ICI Pod 连接到 DCN,其中 4 个聚合块中的每一个连接 4 个 ICI Pod,总共 147,456 个 TPU。 DCNI 层连接四个聚合块(如下图中的顶层所示)。与 ICI 一样,它通过 FR 光纤连接到 OCS,以最大限度地提高每个 OCS 端口的带宽。 (图:147,456 DCN 拓扑)现有的 Ironwood 集群只有一两个聚合块,但 Google 独特的 DCN 架构允许您向网络添加新的 TPU 聚合块,而无需进行重大更改。在 DCNI 层使用 OCS 允许您逐渐增加 DCN 结构的大小并重新分割网络以支持新的聚合块。此外,您可以在不更改 DCN 层配置的情况下更新聚合块带宽。这允许更新现有聚合块的链路速度,而无需更改网络的底层架构工作本身。组织扩张的过程不能无限地持续下去。从规模上看,网络重新布线变得难以管理。 (附录:带有 OCS 绑定的 AB 扩展) TPU 软件策略:另一个重大变化 传统上,TPU 的软件和硬件团队一直在内部工作。这减轻了营销团队夸大其词的压力,并提供了减少理论失败等好处。仅供内部使用的另一个好处是,它允许 TPU 团队显着优先考虑内部功能请求并优化内部工作负载。这是有可能的。缺点是他们并不真正关心外部客户端或工作负载。 TPU生态系统中的第三方开发者数量远少于CUDA生态系统中。与所有非 Nvidia 加速器一样,这是 TPU 的主要弱点之一。此后,谷歌审查了其针对外部客户的软件策略,并对 TPU 团队的 KPI 及其如何为客户做出贡献做出了重大改变。人工智能/机器学习生态系统。我们将讨论两个重要的变化: PyTorch 中“原生”TPU 支持的大规模支持工程工作 vLLM/SGLang TPU 支持的大规模工程工作 这种外包策略在 Google 对各种 TPU 软件存储库的贡献数量中清晰可见。我们可以看到自 3 月份以来对 vLLM 的贡献显着增加。截至 5 月,官方 vLLM TPU 集成后端“tpu”存储库被创建,此后一直处于活跃状态。(图表:按存储库划分的 Google 每月贡献)从历史上看,Google 只为 Jax/XLA:TPU 堆栈(以及 TensorFlow/TF-Mesh、RIP)提供一流的支持,但将 TPU 上的 PyTorch 视为二等公民。它依赖于通过延迟捕获张量图PyTorch/XLA 而不是一流的立即执行模式 此外,它不支持 PyTorch 的本机分布式 API (torch.distributed.*) 也不支持 PyTorch 的本机并行 API (DTensor、FSD)。P2、DDP 等),但依赖于奇怪的树外 XLA SPMD API(torch_xla.experimental.spmd_fsdp、torch_xla.distributed.spmd 等)。 GPU 上的本机 PyTorch CUDA 后端并希望切换到 TPU(代码示例:XLA) 10 月,Google 的“Captain Awesome”Robert Hundt 悄悄宣布了这一点。这是使用 PrivateUse1 TorachDispatch 密钥完成的。这样做主要是因为 Meta 对购买 TPU 产生了新的兴趣,并且不想转向 JAX。这也让那些更喜欢 PyTorch 而不是 JAX 的人能够访问 TPU。此前,几个 Meta FAIR 团队大量使用 PyTorch,当时 Meta FAIR GCP TPU 并不在 GKE/Xmanager/borg 等普通 TPU 堆栈之上,甚至还运行 SLURM。 (图片:GitHub RFC)这种新的 PyTorch TPU 为习惯于 GPU 上的 PyTorch 的 ML 科学家提供了更平滑的过渡,以切换到 TPU 上的 PyTorch,并利用 TPU 上的每 TCO 更高的性能。 Pallas 是一种内核创建语言(类似于 cuTile、Triton 或 CuTe-DSL),用于创建为 TPU 定制内核。 Meta 和 Google 还开始致力于支持 Pallas 核心作为 Torch Dynamo/Inductor 构建堆栈的代码生成目标。这允许将本机 TPU 与 PyTorch 的本机 torch.compile API 集成,从而允许最终用户现在可以使用 PyTorch 注册自定义 pallas 操作。除了树中的本机 PyTorch API 之外,还在幕后完成工作,将 TPU pallas 内核语言集成为 Helion 的代码生成目标。 Helion 可以被认为是一种用于编写具有合理性能的内核的高级语言。用户可以将 Helion 视为低级别的 Aten 运算符,而不是高级的 Triton/Pallas。这是因为 Helion 类似于本机 PyTorch Aten 运算符。 CUDA 生态系统发挥最重要作用的另一个领域是开放生态系统推理。从历史上看,vLLM 和 SGLang 作为一等公民支持 CUDA(ROCm 作为二等公民)。现在,谷歌想要进入vLLM 和 SGlang 开放推理生态系统,并宣布 TPU v5p/v6e beta 支持 vLLM 和 SGLang,并具有非常“独特”的集成。 vLLM 和 SGLang 目前通过将 PyTorch 建模代码减少为 JAX 并利用现有成熟的 JAX TPU 构建管道来实现这一目标。将来,一旦 PyTorch Google 和 vLLM 声称这条通往 JAX 的路径不需要更改 PyTorch 建模代码,但这是值得怀疑的,因为 LLM TPU 目前支持的模型很少。此外,Google 还开发了一些 TPU 核心,包括 TPU 优化的页面注意力核心、计算通信覆盖 GEMM 核心以及其他几个开源量化 matmul 核心,并将其集成到 vLLM 中。目前还没有支持 MLA 的 TPU 内核。一旦 Inductor Pallas TPU 代码生成集成更加成熟,看看内核融合和模式匹配是否可以集成到现有的 PassManager vLLM 中将会很有趣。 SGLang 还考虑实施 PassManager torch.compile 使内核合并管理在许多模型上更易于维护。对于 Ragged Paged attendant v3,TPU 的处理方式与 vLLM GPU 完全不同。 vLLM使用类似于虚拟内存和分页的技术来管理缓存KV。然而,该技术需要获取动态方向并执行分散操作,这是 TPU 不擅长的。因此,TPU核心采用细粒度的运算管道。具体来说,TPU 的分页注意力核心会预取下一个查询序列和 KV 片段,这会将内存负载与计算重叠。现有的vLLM MoE内核根据专家ID对令牌进行排序,将其分发到具有相应专家的设备,并进行组矩阵乘法以合并原始设备上的专家令牌。然而,由于两个原因,该核心的性能并不令人满意。一是TPU执行排序操作速度慢,二是核心无法重叠通信。n 和计算。为了解决这个问题,Google开发者设计了完全合并的MoE。 A完全集成的 MoE 在每台设备上一次向每位专家分配一个令牌,避免按专家 ID 订购令牌,同时重叠 MoE 分配和 MoE 绑定通信。 Google 工程师报告称,与现有内核相比,使用完全集成的 MoE 可使速度提高 3-4 倍。 (图:时间步长图)此外,TPU的另一个硬件单元是SparseCore(SC),它用于加速嵌入搜索和更新。 SC 配备了一个标量子核 SparseCore 定序器 (SCS) 和多个 SparseCore Tiles (SCT) 矢量子核。与 TPU TensorCore 的 512 字节有效负载相比,SCT 支持以 4 或 32 字节的更细粒度直接访问本地和远程内存。这允许SC在与TensorCore通信的同时执行收集/分发操作和ICI通信。重复操作。在 JAX DevLabs 中,我们知道 SparseCore 的可编程性是一项工作进行中。您可以期望Mosaic(TPU自定义内核编译器)以MPMD形式编译,其中SCS和SCT可以运行不同的内核,不同的SparseCore可以运行不同的程序。一旦可编程性赶上,我们怀疑 TPU 的 MoE 核心将能够执行类似于 GPU 的调度和连接操作,而不是通过 Expert ID 进行调度。 (图:SparseCore 结构)关于 AMD 2.0 文章中详细介绍的分解预取解码,请注意,Google 在 vLLM 中对单主机分解 PD 进行了实验性支持,但尚未对多主机 WideEP 或 MTP 分解预取提供支持。这些推理优化对于降低每百万代币的 TCO 以及提高每美元性能和每瓦性能至关重要。此外,对 TPU vLLM 推理的支持尚不可用。已集成到流行的 RL 框架(例如 VERL)中。谷歌正在慢慢朝着开放 AI/ML 生态系统的正确方向迈进干,尤其是“原生”TPU 后端。 vLLM TPU 基准尚未相关 本周,发布了 TPUv6e 和 1 TPUv6e 的新推理基准。据称,每美元的性能比 NVIDIA GPU 差 5 倍。我们不同意这一点有两个主要原因。首先,该基准测试是在 TPU 上的 vLLM 中运行的,该测试只有几个月的历史,因此性能尚未优化。 Google 的内部 Gemini 和 Anthropic 工作负载在内部自定义推理堆栈上运行,该堆栈在每 TCO 性能方面优于 NVIDIA GPU。其次,Artificial Analysis 的每百万代币成本使用 TPUv6e 标价 2.7 美元/小时/芯片。由于物料清单是 H100 的一部分,没有 TPU 的大客户将为 TPUv6e 支付接近该金额的费用。众所周知,大多数云标价都被夸大了,因此客户销售主管可以使用“汽车推销员”式的策略(高标价、大幅折扣)来说服客户他们得到了一笔划算的交易。 SemiAnalysis AI TCO 模型跟踪实际情况l 不同合同期限(1个月、1年、3年等)TPU的市场租赁价格。 (图表:每百万个 I/O 代币的成本) TPU 软件战略中缺失的关键部分 Google 软件战略中继续处理不当的领域之一是 XLA 图形编译器、网络库和 TPU 运行时尚未开源且文档缺乏。结果,从高级用户到临时用户的广泛用户都感到沮丧,他们无法调试代码中的错误。此外,用于多脚架训练的 MegaScale 代码库不是开源的。为了加速采用,我们坚信 Google 应该开源,并且用户采用率的增长将超过 Google 免费公开提供的所有软件知识产权。 PyTorch 和 L 正如开源 inux 采用率迅速增加一样,开源 XLA:TPU 和 TPU 运行时和网络库也将加速这一趋势。
特别提示:以上内容(包括图片和视频,如有)由自有媒体平台“网易帐号”用户上传并发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。