首页 > 财经数据 > 财经数据 > Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

发布时间:2025-06-25 21:02:52
普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。
 
 
  近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。
 
  大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的内存区域中。
 
 
  KV 缓存是模型进行快速推理的基石,但它的大小会随着输入文本的长度线性增长。例如,使用 Llama-3-70B 模型处理一个长度为 128K token 的提示(这大约相当于 Llama 3 技术报告本身的长度),就需要分配高达 42GB 的内存专门用于存储 KV 缓存。
 
  许多先前的工作意识到了这个问题,并提出了从内存中丢弃(驱逐)部分键值对的方法,以实现所谓的「稀疏注意力」。然而,在一个公平的环境下对它们进行横向比较却异常困难。
 
 
  生成过程 = 预填充(对输入进行前向传播并保存键值对)+ 后填充(一次解码一个输出词元)。
 
  有些论文旨在加速预填充阶段;另一些则忽略该阶段,转而致力于最小化后填充阶段的内存开销。同样,有的研究侧重于吞吐量,而另一些则着力于优化内存使用。
 
  陈丹琦团队提出了「KV 足迹」作为一种统一的度量标准,它是在所有时间步中,未被逐出的键值缓存条目所占比例的聚合值。这一个指标就同时涵盖了预填充和解码两个阶段的全部开销,使得在同等基础上比较不同方法成为可能。
 

财经数据更多>>

智能体手机,抢跑 2026 的「方法论」 “恐怖数据”驾到 黄金、美元指数、日元、欧元、英镑、澳元和人民币技术前景分析 东鹏特饮A+H股双上市、TikTokShop强化风控、X投票改进 新款小米SU7续航曝光:三种电池版本,CLTC最高902km 2025年陕西省级人才计划拟入选名单公示 Seedance2.0引爆应用端,还有哪些方向值得重视?周二收盘点评 渭滨50万元电子消费券正式开抢!满500减100、满200减50...... W4周排名出炉,苹果、华为位置互换,小米、荣耀位置也互换 涨价潮下的“生存游戏”:谁能率先穿越周期? 4年前机型将喜提ColorOS 16正式版:还能再战 曦望联席CEO王勇:启望S3研发完成,年中流片年底回片量产 商汤开源多模态自主推理模型SenseNova-MARS 字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争 微信内公众号图标变了:从“一页”变成了“两页” 中国互联网大厂的 AI 时代船票争夺战已经开始了 字节扣子 2.0 发布,我们深挖了它这两年的生长真相 短剧红利狂欢下:屏幕里手握数亿元的“霸总”,屏幕外追要万元欠薪? 泰山啤酒重整:鲜啤王牌,何以渡劫? 2025年新建商品房销售额83937亿元 厂商称被冒名代工名创优品围巾?名创优品暂无回应 五菱大SUV卖6.28万,配1.5T+四轮独悬,轴距超2米8,又要火了! 解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估 日产大5座SUV,NX8实车现身,车长4870mm,两种动力,上半年上市 买车等等!比亚迪26年有超13台新车值得等:汉唐9系叫啥合适? 比黄金还猛!白银价格飙升150%,三个被忽视的原因非常重要 长城证券汪毅:2026年看好AI应用领域 科技有AI,连接全球:海信家电参展CES 2026,定义智慧生活新图景 拼多多内测“百亿超市”,低价再拓新场景 真我 Neo8 参数曝光,骁龙 8 Gen5 、8000mAh电池 2026年第一款真全面屏来了!红魔11 Air官宣