|

南极财经网
2000活跃值=1元

首页 > 财经数据 > 财经数据 > Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

发布时间：2025-06-25 21:02:52

普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。

　　近期，诸如「长思维链」等技术的兴起，带来了需要模型生成数万个 token 的全新工作负载。

　　大多数语言模型都基于 Transformer 架构，其在进行自回归解码（即逐字生成文本）时，需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的内存区域中。

　　KV 缓存是模型进行快速推理的基石，但它的大小会随着输入文本的长度线性增长。例如，使用 Llama-3-70B 模型处理一个长度为 128K token 的提示（这大约相当于 Llama 3 技术报告本身的长度），就需要分配高达 42GB 的内存专门用于存储 KV 缓存。

　　许多先前的工作意识到了这个问题，并提出了从内存中丢弃（驱逐）部分键值对的方法，以实现所谓的「稀疏注意力」。然而，在一个公平的环境下对它们进行横向比较却异常困难。

　　生成过程 = 预填充（对输入进行前向传播并保存键值对）+ 后填充（一次解码一个输出词元）。

　　有些论文旨在加速预填充阶段；另一些则忽略该阶段，转而致力于最小化后填充阶段的内存开销。同样，有的研究侧重于吞吐量，而另一些则着力于优化内存使用。

　　陈丹琦团队提出了「KV 足迹」作为一种统一的度量标准，它是在所有时间步中，未被逐出的键值缓存条目所占比例的聚合值。这一个指标就同时涵盖了预填充和解码两个阶段的全部开销，使得在同等基础上比较不同方法成为可能。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“南极财经网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:主机版《网络奇兵 2：25 周年重制版》游戏宣布延后数周发行

上一篇:联想百应M241无线蓝牙双模静音鼠标办公专用，26.9元包邮

财经数据更多>>

智能体手机，抢跑 2026 的「方法论」 “恐怖数据”驾到黄金、美元指数、日元、欧元、英镑、澳元和人民币技术前景分析东鹏特饮A+H股双上市、TikTokShop强化风控、X投票改进新款小米SU7续航曝光：三种电池版本，CLTC最高902km 2025年陕西省级人才计划拟入选名单公示 Seedance2.0引爆应用端，还有哪些方向值得重视？周二收盘点评渭滨50万元电子消费券正式开抢！满500减100、满200减50...... W4周排名出炉，苹果、华为位置互换，小米、荣耀位置也互换涨价潮下的“生存游戏”：谁能率先穿越周期？ 4年前机型将喜提ColorOS 16正式版：还能再战曦望联席CEO王勇：启望S3研发完成，年中流片年底回片量产商汤开源多模态自主推理模型SenseNova-MARS 字节、阿里、腾讯 AI 大战全记录：一场影响命运的战争微信内公众号图标变了：从“一页”变成了“两页” 中国互联网大厂的 AI 时代船票争夺战已经开始了字节扣子 2.0 发布，我们深挖了它这两年的生长真相短剧红利狂欢下：屏幕里手握数亿元的“霸总”，屏幕外追要万元欠薪？泰山啤酒重整：鲜啤王牌，何以渡劫？ 2025年新建商品房销售额83937亿元厂商称被冒名代工名创优品围巾？名创优品暂无回应五菱大SUV卖6.28万，配1.5T+四轮独悬，轴距超2米8，又要火了！解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估日产大5座SUV，NX8实车现身，车长4870mm，两种动力，上半年上市买车等等！比亚迪26年有超13台新车值得等：汉唐9系叫啥合适？比黄金还猛！白银价格飙升150%，三个被忽视的原因非常重要长城证券汪毅：2026年看好AI应用领域科技有AI，连接全球：海信家电参展CES 2026，定义智慧生活新图景拼多多内测“百亿超市”，低价再拓新场景真我 Neo8 参数曝光，骁龙 8 Gen5 、8000mAh电池 2026年第一款真全面屏来了！红魔11 Air官宣

Copyright 2007-2025 南极财经网版权所有京ICP备2023037816号-12