【編者按】摩爾線程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對(duì)話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache 顯存占用節(jié)省55%到82% 。
近年來,大型語言模型的進(jìn)步推動(dòng)了語言模型服務(wù)在日常問題解決任務(wù)中的廣泛應(yīng)用。然而,長時(shí)間的交互暴露出兩大顯著挑戰(zhàn):首先,上下文長度的快速擴(kuò)張因自注意力機(jī)制的平方級(jí)復(fù)雜度而導(dǎo)致巨大的計(jì)算開銷;其次,盡管鍵值( KV )緩存技術(shù)能緩解冗余計(jì)算,但其顯著增加的 GPU 內(nèi)存需求導(dǎo)致推理批處理規(guī)模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。
01 論文主要貢獻(xiàn)
▼ 以輪次為分析單元研究 Attention 規(guī)律:Round Attention 專為多輪對(duì)話場景推理需求設(shè)計(jì),以輪次為自然邊界劃分 KV 緩存,研究發(fā)現(xiàn)輪次粒度的 Attention 分布存在兩個(gè)重要規(guī)律。
▼ 提出 Round Attention inference pipeline :基于發(fā)現(xiàn)的兩個(gè)規(guī)律提出 Round Attention ,將稀疏性從 Token 級(jí)提升至塊級(jí),選取最相關(guān)的塊參與 attention 計(jì)算,減少 attention 計(jì)算耗時(shí),并將不相關(guān)的塊 offload 到CPU內(nèi)存節(jié)省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時(shí),降低了顯存占用。
02 核心創(chuàng)新:輪次塊稀疏性的三大優(yōu)勢
▼ 自然邊界的語義完整性
問題洞察:多輪對(duì)話中,用戶意圖常以輪次為單位呈現(xiàn)(如“推薦餐廳”→“詢問人均消費(fèi)”→“確認(rèn)地址”)。
解決方案:Round Attention 將 KV 緩存按輪次(對(duì))切分為獨(dú)立塊,每個(gè)塊完整包含一輪對(duì)話的提問與回答,確保模型在計(jì)算注意力時(shí)能直接關(guān)聯(lián)完整語義單元。
▼ 分水嶺層的注意力穩(wěn)定性
關(guān)鍵發(fā)現(xiàn):通過分析 SharedGPT 數(shù)據(jù)集,發(fā)現(xiàn)主流開源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對(duì)歷史輪次的注意力分布高度相似,且同一輪內(nèi)問題與答案的注意力模式一致。
技術(shù)價(jià)值:僅需在分水嶺層一次性篩選 Top-K 相關(guān)輪次,即可覆蓋后續(xù)所有層的計(jì)算需求,相比其他工作逐層動(dòng)態(tài)路由,有效減少 Top-K 計(jì)算開銷。
▼ 端到端的存儲(chǔ)與傳輸優(yōu)化
存儲(chǔ)設(shè)計(jì):將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲(chǔ)于 CPU 內(nèi)存,減少 GPU 內(nèi)存占用。
傳輸效率:相比其他 kv cache offload 工作以 Token 級(jí)細(xì)粒度傳輸, Round Attention 以輪次為單位批量搬運(yùn) KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來的延遲。
03 效果
端到端延遲低于現(xiàn)在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節(jié)省 55% 到 82% ,并且在主觀評(píng)測和客觀評(píng)測兩個(gè)數(shù)據(jù)集上模型推理準(zhǔn)確率基本未受影響。
04 未來展望:開源協(xié)作與技術(shù)融合
摩爾線程 Round Attention 期待與開源社區(qū)深度協(xié)同,繼續(xù)探索稀疏注意力可能的優(yōu)化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發(fā)布在 arXiv :