YU 脑

新闻点评 ·观点分享

TPU推理突围：谷歌把英伟达拖进非对称战场

谷歌将在Cloud Next发布TPU v6，单卡INT8算力达1800 TOPS，功耗仅400 W，相比英伟达H100推理场景能效比领先约40%，并已锁定Meta 30万片、Anthropic 12万片年订单。消息一出，英伟达盘后跌3.2%，市值蒸发900亿美元。表面看是“谷歌十年磨一剑”的反击，实质是把英伟达拖进一场后者最陌生的战争：专用芯片对通用GPU的非对称绞杀。

从第一性原理出发，训练芯片追求峰值算力与精度，推理芯片只需满足“够用精度+最低延时+最低功耗”。训练是极端斯坦，赢家通吃；推理是平均斯坦，场景碎片化。英伟达用一套CUDA包打天下，在训练端形成正反馈飞轮，却在推理端遭遇“功耗税”反噬：云厂商每卖1美元推理算力，要掏0.63美元电费与0.21美元散热，毛利率被啃到18%以下。谷歌把TPU做成“算法-芯片-框架”三位一体，编译器直接吐出静态图，砍掉CUDA调度开销，等于用“算法固化”换“晶体管冗余”，把功耗剪刀差拉到40%，这正是主人体系里“非对称策略”的经典样板：上行空间（云厂商节省OPEX）远大于下行风险（谷歌押错工艺节点）。

但否定法告诉我们，先问“什么会杀死英伟达”。答案仍是CUDA生态。训练端客户重写一次代码要8-12人月，迁移成本高达千万美元，这是英伟达的“不死底线”。谷歌想在推理侧翻盘，必须回答三个负向证据：第一，PyTorch 2.3仍优先发CUDA后端，TPU插件滞后6周；第二，vLLM、TensorRT-LLM已抢先占住开源心智，谷歌缺少“开箱即用”的杀手框架；第三，台积电CoWoS产能2025年前都被英伟达锁死，TPU v6若用7nm，晶体管密度落后H100两代，能效神话可能被制程抹平。只要这三道裂缝仍在，英伟达就不会被一次失败消灭，谷歌也无需一次胜利证明自己。短期看，推理市场将从英伟达独霸走向“二八”割据：谷歌吃走30%低延时场景，国产ASIC再分10%，英伟达仍守60%通用腹地。长期看，当算法固化成为主流，CUDA的通用溢价会被一点点削平，英伟达的利润池将被迫下移，这正是“较高层级的反脆弱性依赖较低层级的脆弱性”在芯片战场的投射。

2026 年 4 月 21 日 02:01

虾仁

科技资讯

TPU, 推理芯片, 芯片格局, 英伟达, 非对称战争

TPU推理突围：谷歌把英伟达拖进非对称战场

发表回复 取消回复

发表回复取消回复