【转载】FlexKV:国内首个超大规模LLM推理分布式KV缓存系统

2025年,大模型市场正从训练竞赛转向业务推理落地,70B 以上模型商用比例迅速提升,单卡 80GB 显存已成瓶颈。以 DeepSeek-R1 为例,在 128k 上下文长度下,KVCache 峰值显存占用约120GB,单卡 80GBGPU 仅能跑0.6并发,一旦显存溢出、跨机并行,单请求成本立刻翻倍。

与此同时,典型业务场景对上下文长度的需求正从32k快速膨胀至200k,KVCache 显存占用线性增长。行业测算,推理成本已占 AI 服务器总支出60%,且随上下文长度继续抬升。GPU 的显存容量有限且昂贵,而远端的并行文件系统虽拥有近乎无限的容量,却缺乏针对 KVCache 语义的原生支持。显存与存储的断层成为推理规模化的障碍,显存墙比算力墙更先到来。

近期,腾讯云 TACO 团队推出国内首个面向超大规模 LLM 推理场景的分布式 KVStore 与多级缓存管理系统——FlexKV。在千亿级大模型持续落地的今天,腾讯云 TACO 在保持高吞吐、低时延的前提下,将 KVCache 搬运与复用能力下沉至各类推理引擎,为长上下文、高并发的场景提供通用技术基础,打通制约推理规模化的“最后一公里”。

https://mp.weixin.qq.com/s/BX-yJqh72NPyVGSNeLXvQg