【转载】FlexKV：国内首个超大规模LLM推理分布式KV缓存系统

1dentity · 2025 年12 月 19 日 06:29

2025年，大模型市场正从训练竞赛转向业务推理落地，70B 以上模型商用比例迅速提升，单卡 80GB 显存已成瓶颈。以 DeepSeek-R1 为例，在 128k 上下文长度下，KVCache 峰值显存占用约120GB，单卡 80GBGPU 仅能跑0.6并发，一旦显存溢出、跨机并行，单请求成本立刻翻倍。

与此同时，典型业务场景对上下文长度的需求正从32k快速膨胀至200k，KVCache 显存占用线性增长。行业测算，推理成本已占 AI 服务器总支出60%，且随上下文长度继续抬升。GPU 的显存容量有限且昂贵，而远端的并行文件系统虽拥有近乎无限的容量，却缺乏针对 KVCache 语义的原生支持。显存与存储的断层成为推理规模化的障碍，显存墙比算力墙更先到来。

近期，腾讯云 TACO 团队推出国内首个面向超大规模 LLM 推理场景的分布式 KVStore 与多级缓存管理系统——FlexKV。在千亿级大模型持续落地的今天，腾讯云 TACO 在保持高吞吐、低时延的前提下，将 KVCache 搬运与复用能力下沉至各类推理引擎，为长上下文、高并发的场景提供通用技术基础，打通制约推理规模化的“最后一公里”。

https://mp.weixin.qq.com/s/BX-yJqh72NPyVGSNeLXvQg