亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

摩爾線程 Round Attention:以輪次塊稀疏性開辟多輪對(duì)話優(yōu)化新范式

來源:摩爾線程 #摩爾線程#
6402

【編者按】摩爾線程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對(duì)話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache 顯存占用節(jié)省55%到82% 。

近年來,大型語言模型的進(jìn)步推動(dòng)了語言模型服務(wù)在日常問題解決任務(wù)中的廣泛應(yīng)用。然而,長時(shí)間的交互暴露出兩大顯著挑戰(zhàn):首先,上下文長度的快速擴(kuò)張因自注意力機(jī)制的平方級(jí)復(fù)雜度而導(dǎo)致巨大的計(jì)算開銷;其次,盡管鍵值( KV )緩存技術(shù)能緩解冗余計(jì)算,但其顯著增加的 GPU 內(nèi)存需求導(dǎo)致推理批處理規(guī)模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。

01 論文主要貢獻(xiàn)

▼ 以輪次為分析單元研究 Attention 規(guī)律:Round Attention 專為多輪對(duì)話場景推理需求設(shè)計(jì),以輪次為自然邊界劃分 KV 緩存,研究發(fā)現(xiàn)輪次粒度的 Attention 分布存在兩個(gè)重要規(guī)律。

▼ 提出 Round Attention inference pipeline :基于發(fā)現(xiàn)的兩個(gè)規(guī)律提出 Round Attention ,將稀疏性從 Token 級(jí)提升至塊級(jí),選取最相關(guān)的塊參與 attention 計(jì)算,減少 attention 計(jì)算耗時(shí),并將不相關(guān)的塊 offload 到CPU內(nèi)存節(jié)省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時(shí),降低了顯存占用。

02 核心創(chuàng)新:輪次塊稀疏性的三大優(yōu)勢

▼ 自然邊界的語義完整性

問題洞察:多輪對(duì)話中,用戶意圖常以輪次為單位呈現(xiàn)(如“推薦餐廳”→“詢問人均消費(fèi)”→“確認(rèn)地址”)。

解決方案:Round Attention 將 KV 緩存按輪次(對(duì))切分為獨(dú)立塊,每個(gè)塊完整包含一輪對(duì)話的提問與回答,確保模型在計(jì)算注意力時(shí)能直接關(guān)聯(lián)完整語義單元。

▼ 分水嶺層的注意力穩(wěn)定性

關(guān)鍵發(fā)現(xiàn):通過分析 SharedGPT 數(shù)據(jù)集,發(fā)現(xiàn)主流開源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對(duì)歷史輪次的注意力分布高度相似,且同一輪內(nèi)問題與答案的注意力模式一致。

技術(shù)價(jià)值:僅需在分水嶺層一次性篩選 Top-K 相關(guān)輪次,即可覆蓋后續(xù)所有層的計(jì)算需求,相比其他工作逐層動(dòng)態(tài)路由,有效減少 Top-K 計(jì)算開銷。

▼ 端到端的存儲(chǔ)與傳輸優(yōu)化

存儲(chǔ)設(shè)計(jì):將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲(chǔ)于 CPU 內(nèi)存,減少 GPU 內(nèi)存占用。

傳輸效率:相比其他 kv cache offload 工作以 Token 級(jí)細(xì)粒度傳輸, Round Attention 以輪次為單位批量搬運(yùn) KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來的延遲。

03 效果

端到端延遲低于現(xiàn)在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節(jié)省 55% 到 82% ,并且在主觀評(píng)測和客觀評(píng)測兩個(gè)數(shù)據(jù)集上模型推理準(zhǔn)確率基本未受影響。

04 未來展望:開源協(xié)作與技術(shù)融合

摩爾線程 Round Attention 期待與開源社區(qū)深度協(xié)同,繼續(xù)探索稀疏注意力可能的優(yōu)化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發(fā)布在 arXiv :

https://arxiv.org/pdf/2502.15294

責(zé)編: 愛集微
來源:摩爾線程 #摩爾線程#
THE END
愛集微

微信:

郵箱:laoyaoba@gmail.com


10.7w文章總數(shù)
12012.5w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...

国产三级精品久久久久| 国产品无码一区二区三区在线 | 最新的亚洲欧美中文字幕| 人人超级碰青青精品| 日韩aaa成人免费观看| 大鸡吧老外操中国逼| 一区二区三区av精品| 久久精品人人爽人人爽快| 中国女人日逼免费片| 黑丝美女被操到高潮| 大鸡吧插美女嫩逼| 爱爱视频小抽插动漫| 精品国产自在现线看| 欧美99热这里都是精品| 美女的咪咪和骚逼| 美女逼男逼小穴小骚下载| 午夜福利在线观看aaa| 美女骚逼黄色18禁| 精品一区二区久久久久无码| 视频在线观看一区@99| 亚洲激情无码视频| 久久久中文字幕在线视频| 夜色成人免费观看| 亚洲国产成人久久成人52| 亚洲午夜福利视频在线| 欧美高清一二三区| 3色w九九久久男人皇宫宕| 日韩一区二区三区国色天香| 亚洲欧美日韩中文v在线| 大胸瑟瑟黑丝午夜| 插欧美美女逼逼逼逼| 亚洲 欧美 精品 高清| 中文字幕av一区二区三区哈| 国产午夜高清无码一级片 | 日本高清不卡一区二区三区| 大胸瑟瑟黑丝午夜| 60秒动态视频在线观看| 91大神精品动漫| 把韩国美女操出水| aaa啊啊啊黄片| 日韩欧美视频在线观看不卡|