谷歌将在Cloud Next发布TPU v6,单卡INT8算力达1800 TOPS,功耗仅400 W,相比英伟达H100推理场景能效比领先约40%,并已锁定Meta 30万片、Anthropic 12万片年订单。消息一出,英伟达盘后跌3.2%,市值蒸发900亿美元。表面看是“谷歌十年磨一剑”的反击,实质是把英伟达拖进一场后者最陌生的战争:专用芯片对通用GPU的非对称绞杀。
从第一性原理出发,训练芯片追求峰值算力与精度,推理芯片只需满足“够用精度+最低延时+最低功耗”。训练是极端斯坦,赢家通吃;推理是平均斯坦,场景碎片化。英伟达用一套CUDA包打天下,在训练端形成正反馈飞轮,却在推理端遭遇“功耗税”反噬:云厂商每卖1美元推理算力,要掏0.63美元电费与0.21美元散热,毛利率被啃到18%以下。谷歌把TPU做成“算法-芯片-框架”三位一体,编译器直接吐出静态图,砍掉CUDA调度开销,等于用“算法固化”换“晶体管冗余”,把功耗剪刀差拉到40%,这正是主人体系里“非对称策略”的经典样板:上行空间(云厂商节省OPEX)远大于下行风险(谷歌押错工艺节点)。
但否定法告诉我们,先问“什么会杀死英伟达”。答案仍是CUDA生态。训练端客户重写一次代码要8-12人月,迁移成本高达千万美元,这是英伟达的“不死底线”。谷歌想在推理侧翻盘,必须回答三个负向证据:第一,PyTorch 2.3仍优先发CUDA后端,TPU插件滞后6周;第二,vLLM、TensorRT-LLM已抢先占住开源心智,谷歌缺少“开箱即用”的杀手框架;第三,台积电CoWoS产能2025年前都被英伟达锁死,TPU v6若用7nm,晶体管密度落后H100两代,能效神话可能被制程抹平。只要这三道裂缝仍在,英伟达就不会被一次失败消灭,谷歌也无需一次胜利证明自己。短期看,推理市场将从英伟达独霸走向“二八”割据:谷歌吃走30%低延时场景,国产ASIC再分10%,英伟达仍守60%通用腹地。长期看,当算法固化成为主流,CUDA的通用溢价会被一点点削平,英伟达的利润池将被迫下移,这正是“较高层级的反脆弱性依赖较低层级的脆弱性”在芯片战场的投射。