DeepSeek又发新模型了。V4预览版上线、开源、支持百万字超长上下文,Pro版本在世界知识测评里只稍逊于谷歌的顶尖闭源模型。但这次最值得注意的不是参数数字,而是它和华为昇腾芯片的深度适配——软件主动改写代码去“迁就”硬件,而不是反过来等硬件追软件。这背后是一整套量体裁衣式的工程,难度远超简单调用英伟达的CUDA生态。
为什么DeepSeek沉默了那么久?外界以为它掉队了,国外大模型平均91.4天就迭代一个版本,DeepSeek却从年初到现在几乎没动静。但这次V4告诉你,沉默是在做底层适配。昇腾芯片不是英伟达,指令集、内存结构、算子库都不一样,要把大模型跑上去并且做到高吞吐低时延,得把底层代码重写一遍。这不是“能用就行”的妥协,而是从架构层面重新设计数据格式——去年V3.1就用了针对国产下一代芯片设计的FP8 Scale参数精度,这种预见性不是临时抱佛脚。
有人可能会说,这不是被逼无奈吗?英伟达最强芯片Blackwell已经被禁止对华出口,DeepSeek V4到底用了什么芯片训练也没公开。但换个角度看,正是这种封锁倒逼出了真正的自主能力。当国产芯片能在具体场景里接住原本由外国芯片承担的计算任务,企业就不再依赖特定进口型号。今年初智谱GLM-5适配了七家国产芯片平台,一些企业大模型的训练已经跑在纯国产算力上——这套软硬件协同的AI研发生态正在成型。
中国AI不需要和国外比迭代速度。国外91.4天一个版本,背后是成熟芯片生态和资本驱动的快速试验。中国AI的节奏是“适配—验证—再适配”的螺旋上升,每一步都走得更扎实。当软硬件协同能力积累到一定程度,自然会释放出独特的性能优势。DeepSeek V4在开源领域领先、在顶尖闭源模型面前也不逊色的成绩,就是这个节奏的回报。
说到底,中国AI活在自己节奏里,不是闭门造车,而是务实兼容。用能用的芯片,做能做的事,把每一行代码都写对。美国封锁禁运反而帮我们砍掉了“等进口芯片”的幻想,逼出一套独立生态。这才是真正的自主——不是喊着替代别人,而是当你不再需要刻意替代任何人的时候,就已经赢了。