亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

摩爾線程 Round Attention:以輪次塊稀疏性開辟多輪對(duì)話優(yōu)化新范式

來源:摩爾線程 #摩爾線程#
6402

【編者按】摩爾線程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對(duì)話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache 顯存占用節(jié)省55%到82% 。

近年來,大型語言模型的進(jìn)步推動(dòng)了語言模型服務(wù)在日常問題解決任務(wù)中的廣泛應(yīng)用。然而,長時(shí)間的交互暴露出兩大顯著挑戰(zhàn):首先,上下文長度的快速擴(kuò)張因自注意力機(jī)制的平方級(jí)復(fù)雜度而導(dǎo)致巨大的計(jì)算開銷;其次,盡管鍵值( KV )緩存技術(shù)能緩解冗余計(jì)算,但其顯著增加的 GPU 內(nèi)存需求導(dǎo)致推理批處理規(guī)模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。

01 論文主要貢獻(xiàn)

▼ 以輪次為分析單元研究 Attention 規(guī)律:Round Attention 專為多輪對(duì)話場景推理需求設(shè)計(jì),以輪次為自然邊界劃分 KV 緩存,研究發(fā)現(xiàn)輪次粒度的 Attention 分布存在兩個(gè)重要規(guī)律。

▼ 提出 Round Attention inference pipeline :基于發(fā)現(xiàn)的兩個(gè)規(guī)律提出 Round Attention ,將稀疏性從 Token 級(jí)提升至塊級(jí),選取最相關(guān)的塊參與 attention 計(jì)算,減少 attention 計(jì)算耗時(shí),并將不相關(guān)的塊 offload 到CPU內(nèi)存節(jié)省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時(shí),降低了顯存占用。

02 核心創(chuàng)新:輪次塊稀疏性的三大優(yōu)勢

▼ 自然邊界的語義完整性

問題洞察:多輪對(duì)話中,用戶意圖常以輪次為單位呈現(xiàn)(如“推薦餐廳”→“詢問人均消費(fèi)”→“確認(rèn)地址”)。

解決方案:Round Attention 將 KV 緩存按輪次(對(duì))切分為獨(dú)立塊,每個(gè)塊完整包含一輪對(duì)話的提問與回答,確保模型在計(jì)算注意力時(shí)能直接關(guān)聯(lián)完整語義單元。

▼ 分水嶺層的注意力穩(wěn)定性

關(guān)鍵發(fā)現(xiàn):通過分析 SharedGPT 數(shù)據(jù)集,發(fā)現(xiàn)主流開源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對(duì)歷史輪次的注意力分布高度相似,且同一輪內(nèi)問題與答案的注意力模式一致。

技術(shù)價(jià)值:僅需在分水嶺層一次性篩選 Top-K 相關(guān)輪次,即可覆蓋后續(xù)所有層的計(jì)算需求,相比其他工作逐層動(dòng)態(tài)路由,有效減少 Top-K 計(jì)算開銷。

▼ 端到端的存儲(chǔ)與傳輸優(yōu)化

存儲(chǔ)設(shè)計(jì):將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲(chǔ)于 CPU 內(nèi)存,減少 GPU 內(nèi)存占用。

傳輸效率:相比其他 kv cache offload 工作以 Token 級(jí)細(xì)粒度傳輸, Round Attention 以輪次為單位批量搬運(yùn) KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來的延遲。

03 效果

端到端延遲低于現(xiàn)在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節(jié)省 55% 到 82% ,并且在主觀評(píng)測和客觀評(píng)測兩個(gè)數(shù)據(jù)集上模型推理準(zhǔn)確率基本未受影響。

04 未來展望:開源協(xié)作與技術(shù)融合

摩爾線程 Round Attention 期待與開源社區(qū)深度協(xié)同,繼續(xù)探索稀疏注意力可能的優(yōu)化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發(fā)布在 arXiv :

https://arxiv.org/pdf/2502.15294

責(zé)編: 愛集微
來源:摩爾線程 #摩爾線程#
THE END
愛集微

微信:

郵箱:laoyaoba@gmail.com


10.7w文章總數(shù)
12012.5w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...

亚洲国产精品伦理在线看| 日韩激情精品久久久一区二区| 国产精品熟女一区二区三区久久夜| 91在线一区二区| 男人操女人下面国产剧情| 女人的骚逼免费视频| 亚洲日韩国产欧美久久久| 美女穿黑丝被大鸡巴猛操| 我最爱操女人的骚逼| 正在播放舔穴视频| 亚洲狠狠插狠狠搞狠狠摸| 日韩精品欧美喷水| 日韩欧美一级特黄大片欧| 欧美成人精品一区二区免费看| 大阴茎交于大阴户黄片视频| 高颜值情侣鸡巴插插淫叫| 精品免费在线观看等| 国产激情内射免费精品| 亚洲欧美一区二区爽爽爽| 国产 欧美 日韩 黄片| 国产操小骚逼视频| 泰国无码AV片在线观看| 大胸瑟瑟黑丝午夜| 亚洲av伦理一区二区三区久久| 日韩av一区二区高清不卡| 被公侵犯人妻少妇一区二区三区| 日韩 中文字幕在线最新| 日韩午夜免费av在线| 美国毛片亚洲社区成人看| 伊人久久久久久久久香港| 欧美亚洲综合久久夜夜嗨| 野外日逼视频免费看| 欧美高清在线观看一区二区三区| 男生用鸡巴操女生的视频| 一区二区在线不卡| 操逼动漫首页登录| 欧美黑屌操B内射冒白浆| 小穴抽插流水视频| 午夜福利国产三级片| 人妻人久久精品中文字幕| 插女生那个的视频|