AI芯片的"算力幻觉":为什么All-in ASIC可能是这个时代最昂贵的错误?

最近芯片圈有个怪现象:只要是个AI芯片,发布会上不拉出几百个T的NPU算力出来遛遛,都不好意思跟人打招呼。刚刚出圈的Taalas更是把这种极端推向了新高度——直接把整个LLM模型"烧死"在硅片里,号称17,000 tokens/秒,比英伟达快50倍。

在很多人眼里,AI的未来就是靠这些专用芯片堆出来的。但作为一个在研发运营里带过几百个项目、看惯了技术更迭的人,我必须泼一盆冷水:这种"算力繁荣"的地基,可能从一开始就打歪了。

一、先聊Taalas:一个工程奇迹,也是一面照妖镜

Taalas的HC1芯片确实让业界震动。它由Tenstorrent联合创始人Ljubisa Bajic带领一个25人团队、花了3000万美元造出来,在TSMC 6nm上做出了815mm²的reticle-size芯片,把Llama 3.1 8B整个模型连带权重硬编码进了硅片。实测14,000–17,000 tokens/秒,比目前最快的Cerebras快10倍,比英伟达GPU快两个数量级。

这个工程成就本身值得尊敬。但冷静看数据,问题就来了。

**第一,17,000 tok/s是激进量化下的结果。**HC1用的是3bit+6bit混合量化,模型质量相比标准精度有明显退化。拿一个被大幅压缩的模型跟别人全精度的结果比速度,这个对比的公平性需要打折扣。

**第二,一颗815mm²的芯片,250W功耗,只能跑一个模型。**不是一类模型,是一个具体的模型。模型换了,芯片就是废铁。这不是AI加速器,这是一颗"一次性打火机"。

**第三,上下文窗口受限于片上SRAM。**KV cache全靠"有限的片上SRA存储,这意味着它天然无法支持长上下文场景。

Taalas把ASIC的逻辑推到了极致,也因此成了一面照妖镜——它用最极端的方式暴露了整个ASIC路线的结构性缺陷。

二、具身智能的真相:算法还没收敛,你却想把它"烧死"

大家都在聊具身智能、聊大模型落地,听起来明天机器人就能上街买菜了。但现实极其骨感:现在的算法层根本没有收敛。

模型架构还在以周为单位快速迭代。今天是Transformer,明天是Mamba,后天可能又跑出一个你听都没听过的架构。你为了追求极致效能,把特定算法逻辑"烧死"在硅片里,这本质上是一场豪赌——赌赢了,你领先半年;赌输了,算法范式一变,你手里那颗耗资数亿研发的芯片,立刻就成了废铁。

有人会说,现代ASIC也有可编程性。没错,Google的TPU从v1到v5,确实一路跟着算法迭代过来了,并没有变成废铁。但请注意,TPU背后站着的是Google这个体量的公司,拥有顶级的编译器团队和无限的工程资源来持续适配。对于绝大多数ASIC厂商来说,这种持续适配能力是不存在的。而Taalas走的是比TPU极端得多的路线——几乎零可编程性,连这条退路都堵死了。

Taalas的解法是"两个月快速换代,只改两层金属掩膜"。思路聪明,但业内人士普遍存疑。6nm先进工艺的TSMC产线排期是行业公认的痛点,即便只改两层mask,能否真正实现任意时间点的两个月交付,Hacker News上有资深VLSI工程师直言这个承诺"ambitious"——这是非常礼貌的说法了。每次换代意味着整批芯片报废重来,废弃成本和环境代价,没人提。

更关键的是,跑DeepSeek R1-671B这种前沿模型需要约30颗不同的定制芯片协同工作,每颗都要单独tape-out。30颗芯片的互联同步、良率管理、供应链协调——这个系统复杂度是指数级的,目前只有仿真数据,没有实测。

**英伟达之所以是英伟达,不只是因为GPU算力大,而是因为它能跟着算法一起"演进"。**从CNN到RNN到Transformer到MoE,同一张卡全部通吃。这种软硬耦合的适应力,才是真正的护城河。Meta刚跟英伟达签了"multigenerational"的长期合作——大概率在Taalas发布前就已知情,但仍然选择了GPU路线。这不是因为Meta不懂优化,而是因为灵活性的价值远大于单点性能优势。

三、"毫秒级响应"是个正在失效的壁垒

ASIC厂商最喜欢拿"毫秒级响应"说事,觉得这是专用硬件不可逾越的优势。Taalas的sub-millisecond延迟确实惊艳,0.138秒输出一整篇二战月度史,人眼都来不及看。

但这个逻辑在五年前成立,现在已经站不住了。

软件端的优化速度快到令人发指:模型蒸馏、极限量化(GPTQ/AWQ/GGUF)、推理引擎的黑科技(vLLM、TensorRT-LLM、SGLang)层出不穷。很多曾经被认为必须靠硬件死磕的延迟问题,正在被软件算法一层层地"卷"掉。Hacker News上有工程师的分析很到位:如果把Taalas的6nm芯片换算到同等工艺(4nm)、同等精度(FP8),跟H200的吞吐相比其实在同一个数量级的Pareto曲线上——Taalas并没有突破物理定律,它只是在灵活性-性能的tradeoff曲线上选了一个极端点。

你用一个随时可能被软件优化掉的硬件优势,去支撑几十个亿的商业逻辑,这不叫专业,这叫投机。地基不稳,盖得越高,倒得越快。

四、垂直场景:养不起的"生态吞金兽"

芯片从来不是单打独斗的事。

有人说"做好几个行业场景就能起飞了,比如机器人小脑"。这话反过来恰恰说明了ASIC的天花板——你自己在给它画地为牢。

搞ASIC的人总觉得芯片造出来就大功告成了,其实那只是长征第一步。真正让开发者崩溃的是什么?是工具链、是编译器、是开发者社区。英伟达的CUDA护城河,是靠十几年、数十亿美元的生态投入养出来的。一个垂直场景(比如智能座舱或质检机器人)的营收,真的撑得起那套深不见底的软件生态建设吗?几个闭环场景的订单,能养活几百人的编译器团队吗?

Taalas倒是聪明地绕开了这个问题——它声称"软件作为一个问题基本消失了",全公司只有一个工程师在搞软件栈。这确实是硬编码路线的优势。但代价是什么?代价是零灵活性。你省掉了软件生态的成本,但也彻底放弃了适应变化的能力。数据中心运维不愿意管理无数种不同的硬件SKU,Forbes文章里也直言"no data center organization wants to manage that many SKUs"。

没有生态支持的算力,就是一块长得像芯片的砖头。没有灵活性的极致速度,就是一辆只能跑直线的F1赛车。

五、为什么我看好"CPU原生融合AI"

所以,回到我为什么要押注RISC-V,押注CPU原生融合AI的技术路线。

我们看到的商业逻辑不是"造一个更强的NPU插件",更不是"把模型烧进硅片",而是要把AI能力重新归还给CPU。以进迭时空Spacemit的K3为例,通过1024-bit的RVV 1.0并行计算,把60 TOPS的通用AI算力直接长在CPU内部。

这叫"以万变应万变"。

算法工程师不需要去学什么稀奇古怪的私有算子库,不需要担心模型架构变了芯片就不支持了。你只要会写标准的CPU编程范式,AI模型就能低成本迁移。这不是一个只能切白菜的昂贵切菜机(ASIC),也不是一个每次换菜就要重铸的定制模具(Taalas),而是一把锋利无比、什么都能干的全能厨刀。

六、诚实面对:CPU原生AI也不是银弹

但我不想犯跟ASIC鼓吹者同样的错误——只讲优势,回避局限。

**RVV宽向量本身也是一种硬件押注。**1024-bit的向量宽度,本质上是对"密集并行计算"这个范式的硬件投注。如果未来主流计算范式转向稀疏性、事件驱动、神经形态计算等全新方向,宽向量的效率优势同样会下降。这是事实,不需要回避。

**60 TOPS的峰值数字需要务实看待。**峰值理论算力和实际推理workload下的利用率之间,永远存在差距。一颗CPU架构的芯片跑矩阵密集的Transformer推理,实际利用率不可能达到100%。这个数字的含金量,最终要靠实测benchmark说话。

**RISC-V的AI生态确实还在早期。**RVV 1.0的编译器优化成熟度、主流AI框架的适配程度、开发者社区的活跃度,跟ARM的NEON/SVE生态相比还有明显差距,更不要说跟CUDA比。这是RISC-V阵营需要正视和持续投入的领域。

但关键区别在于退化曲线的斜率。

ASIC和硬编码方案在算法范式切换时面临的是悬崖式失效——芯片直接报废,投资归零。而CPU架构面临的是效率下降——你的芯片还能用,只是没那么快了,你仍然有时间和空间去适应、去迭代。

在一个算法每12–18个月就可能换代的时代,"还能用但慢一点"和"直接变砖"之间的差距,就是生死之别。

这不是本质差异,是程度差异。但在工程决策和商业博弈中,程度差异往往就是成败的分水岭。

七、别赌终点,押注进化

Taalas用一种近乎疯狂的方式证明了一件事:当你把灵活性降到零,性能确实可以爆炸。但它同时也证明了另一件事——这条路的尽头是一条越走越窄的死胡同。

NPU、TPU、以及Taalas这种极端ASIC,本质上都是在算法剧烈动荡期下的阶段性方案。它们在特定窗口期内有价值,但都押注了一个前提:算法会收敛。而现实是,没有人知道算法什么时候收敛,甚至不知道它会收敛到什么形态。

AI硬件的终局不会是一颗跑得最快的芯片,而是一个能持续进化的计算底座。在这个底座上,算法可以自由迭代,开发者可以低成本迁移,系统可以从容应对每一次范式跃迁。

核心问题从来不是"有没有聪明人把它用对地方",而是整个AI硬件赛道正处于算法的剧烈动荡期。现在All-in ASIC,大概率是在赌一个还没稳定的未来。

与其赌一个算法的终点,不如押注那个能持续进化的底座。

在人类还不知道明天流行吃什么的时候,全能厨刀才是活下去的唯一保障。