AI芯片的"算力幻觉"：为什么All-in ASIC可能是这个时代最昂贵的错误？

Making · 2026 年2 月 26 日 01:59

最近芯片圈有个怪现象：只要是个AI芯片，发布会上不拉出几百个T的NPU算力出来遛遛，都不好意思跟人打招呼。刚刚出圈的Taalas更是把这种极端推向了新高度——直接把整个LLM模型"烧死"在硅片里，号称17,000 tokens/秒，比英伟达快50倍。

在很多人眼里，AI的未来就是靠这些专用芯片堆出来的。但作为一个在研发运营里带过几百个项目、看惯了技术更迭的人，我必须泼一盆冷水：这种"算力繁荣"的地基，可能从一开始就打歪了。

一、先聊Taalas：一个工程奇迹，也是一面照妖镜

Taalas的HC1芯片确实让业界震动。它由Tenstorrent联合创始人Ljubisa Bajic带领一个25人团队、花了3000万美元造出来，在TSMC 6nm上做出了815mm²的reticle-size芯片，把Llama 3.1 8B整个模型连带权重硬编码进了硅片。实测14,000–17,000 tokens/秒，比目前最快的Cerebras快10倍，比英伟达GPU快两个数量级。

这个工程成就本身值得尊敬。但冷静看数据，问题就来了。

**第一，17,000 tok/s是激进量化下的结果。**HC1用的是3bit+6bit混合量化，模型质量相比标准精度有明显退化。拿一个被大幅压缩的模型跟别人全精度的结果比速度，这个对比的公平性需要打折扣。

**第二，一颗815mm²的芯片，250W功耗，只能跑一个模型。**不是一类模型，是一个具体的模型。模型换了，芯片就是废铁。这不是AI加速器，这是一颗"一次性打火机"。

**第三，上下文窗口受限于片上SRAM。**KV cache全靠"有限的片上SRA存储，这意味着它天然无法支持长上下文场景。

Taalas把ASIC的逻辑推到了极致，也因此成了一面照妖镜——它用最极端的方式暴露了整个ASIC路线的结构性缺陷。

二、具身智能的真相：算法还没收敛，你却想把它"烧死"

大家都在聊具身智能、聊大模型落地，听起来明天机器人就能上街买菜了。但现实极其骨感：现在的算法层根本没有收敛。

模型架构还在以周为单位快速迭代。今天是Transformer，明天是Mamba，后天可能又跑出一个你听都没听过的架构。你为了追求极致效能，把特定算法逻辑"烧死"在硅片里，这本质上是一场豪赌——赌赢了，你领先半年；赌输了，算法范式一变，你手里那颗耗资数亿研发的芯片，立刻就成了废铁。

有人会说，现代ASIC也有可编程性。没错，Google的TPU从v1到v5，确实一路跟着算法迭代过来了，并没有变成废铁。但请注意，TPU背后站着的是Google这个体量的公司，拥有顶级的编译器团队和无限的工程资源来持续适配。对于绝大多数ASIC厂商来说，这种持续适配能力是不存在的。而Taalas走的是比TPU极端得多的路线——几乎零可编程性，连这条退路都堵死了。

Taalas的解法是"两个月快速换代，只改两层金属掩膜"。思路聪明，但业内人士普遍存疑。6nm先进工艺的TSMC产线排期是行业公认的痛点，即便只改两层mask，能否真正实现任意时间点的两个月交付，Hacker News上有资深VLSI工程师直言这个承诺"ambitious"——这是非常礼貌的说法了。每次换代意味着整批芯片报废重来，废弃成本和环境代价，没人提。

更关键的是，跑DeepSeek R1-671B这种前沿模型需要约30颗不同的定制芯片协同工作，每颗都要单独tape-out。30颗芯片的互联同步、良率管理、供应链协调——这个系统复杂度是指数级的，目前只有仿真数据，没有实测。

**英伟达之所以是英伟达，不只是因为GPU算力大，而是因为它能跟着算法一起"演进"。**从CNN到RNN到Transformer到MoE，同一张卡全部通吃。这种软硬耦合的适应力，才是真正的护城河。Meta刚跟英伟达签了"multigenerational"的长期合作——大概率在Taalas发布前就已知情，但仍然选择了GPU路线。这不是因为Meta不懂优化，而是因为灵活性的价值远大于单点性能优势。

三、"毫秒级响应"是个正在失效的壁垒

ASIC厂商最喜欢拿"毫秒级响应"说事，觉得这是专用硬件不可逾越的优势。Taalas的sub-millisecond延迟确实惊艳，0.138秒输出一整篇二战月度史，人眼都来不及看。

但这个逻辑在五年前成立，现在已经站不住了。

软件端的优化速度快到令人发指：模型蒸馏、极限量化（GPTQ/AWQ/GGUF）、推理引擎的黑科技（vLLM、TensorRT-LLM、SGLang）层出不穷。很多曾经被认为必须靠硬件死磕的延迟问题，正在被软件算法一层层地"卷"掉。Hacker News上有工程师的分析很到位：如果把Taalas的6nm芯片换算到同等工艺（4nm）、同等精度（FP8），跟H200的吞吐相比其实在同一个数量级的Pareto曲线上——Taalas并没有突破物理定律，它只是在灵活性-性能的tradeoff曲线上选了一个极端点。

你用一个随时可能被软件优化掉的硬件优势，去支撑几十个亿的商业逻辑，这不叫专业，这叫投机。地基不稳，盖得越高，倒得越快。

四、垂直场景：养不起的"生态吞金兽"

芯片从来不是单打独斗的事。

有人说"做好几个行业场景就能起飞了，比如机器人小脑"。这话反过来恰恰说明了ASIC的天花板——你自己在给它画地为牢。

搞ASIC的人总觉得芯片造出来就大功告成了，其实那只是长征第一步。真正让开发者崩溃的是什么？是工具链、是编译器、是开发者社区。英伟达的CUDA护城河，是靠十几年、数十亿美元的生态投入养出来的。一个垂直场景（比如智能座舱或质检机器人）的营收，真的撑得起那套深不见底的软件生态建设吗？几个闭环场景的订单，能养活几百人的编译器团队吗？

Taalas倒是聪明地绕开了这个问题——它声称"软件作为一个问题基本消失了"，全公司只有一个工程师在搞软件栈。这确实是硬编码路线的优势。但代价是什么？代价是零灵活性。你省掉了软件生态的成本，但也彻底放弃了适应变化的能力。数据中心运维不愿意管理无数种不同的硬件SKU，Forbes文章里也直言"no data center organization wants to manage that many SKUs"。

没有生态支持的算力，就是一块长得像芯片的砖头。没有灵活性的极致速度，就是一辆只能跑直线的F1赛车。

五、为什么我看好"CPU原生融合AI"

所以，回到我为什么要押注RISC-V，押注CPU原生融合AI的技术路线。

我们看到的商业逻辑不是"造一个更强的NPU插件"，更不是"把模型烧进硅片"，而是要把AI能力重新归还给CPU。以进迭时空Spacemit的K3为例，通过1024-bit的RVV 1.0并行计算，把60 TOPS的通用AI算力直接长在CPU内部。

这叫"以万变应万变"。

算法工程师不需要去学什么稀奇古怪的私有算子库，不需要担心模型架构变了芯片就不支持了。你只要会写标准的CPU编程范式，AI模型就能低成本迁移。这不是一个只能切白菜的昂贵切菜机（ASIC），也不是一个每次换菜就要重铸的定制模具（Taalas），而是一把锋利无比、什么都能干的全能厨刀。

六、诚实面对：CPU原生AI也不是银弹

但我不想犯跟ASIC鼓吹者同样的错误——只讲优势，回避局限。

**RVV宽向量本身也是一种硬件押注。**1024-bit的向量宽度，本质上是对"密集并行计算"这个范式的硬件投注。如果未来主流计算范式转向稀疏性、事件驱动、神经形态计算等全新方向，宽向量的效率优势同样会下降。这是事实，不需要回避。

**60 TOPS的峰值数字需要务实看待。**峰值理论算力和实际推理workload下的利用率之间，永远存在差距。一颗CPU架构的芯片跑矩阵密集的Transformer推理，实际利用率不可能达到100%。这个数字的含金量，最终要靠实测benchmark说话。

**RISC-V的AI生态确实还在早期。**RVV 1.0的编译器优化成熟度、主流AI框架的适配程度、开发者社区的活跃度，跟ARM的NEON/SVE生态相比还有明显差距，更不要说跟CUDA比。这是RISC-V阵营需要正视和持续投入的领域。

但关键区别在于退化曲线的斜率。

ASIC和硬编码方案在算法范式切换时面临的是悬崖式失效——芯片直接报废，投资归零。而CPU架构面临的是效率下降——你的芯片还能用，只是没那么快了，你仍然有时间和空间去适应、去迭代。

在一个算法每12–18个月就可能换代的时代，"还能用但慢一点"和"直接变砖"之间的差距，就是生死之别。

这不是本质差异，是程度差异。但在工程决策和商业博弈中，程度差异往往就是成败的分水岭。

七、别赌终点，押注进化

Taalas用一种近乎疯狂的方式证明了一件事：当你把灵活性降到零，性能确实可以爆炸。但它同时也证明了另一件事——这条路的尽头是一条越走越窄的死胡同。

NPU、TPU、以及Taalas这种极端ASIC，本质上都是在算法剧烈动荡期下的阶段性方案。它们在特定窗口期内有价值，但都押注了一个前提：算法会收敛。而现实是，没有人知道算法什么时候收敛，甚至不知道它会收敛到什么形态。

AI硬件的终局不会是一颗跑得最快的芯片，而是一个能持续进化的计算底座。在这个底座上，算法可以自由迭代，开发者可以低成本迁移，系统可以从容应对每一次范式跃迁。

核心问题从来不是"有没有聪明人把它用对地方"，而是整个AI硬件赛道正处于算法的剧烈动荡期。现在All-in ASIC，大概率是在赌一个还没稳定的未来。

与其赌一个算法的终点，不如押注那个能持续进化的底座。

在人类还不知道明天流行吃什么的时候，全能厨刀才是活下去的唯一保障。