亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

清華大學(xué)計算機系團隊獲得第23屆USENIX文件與存儲技術(shù)會議(FAST25)最佳論文獎

來源:清華大學(xué) #清華大學(xué)#
4881

2月25日至27日,第23屆USENIX文件與存儲技術(shù)會議(USENIX Conference on File and Storage Technologies,FAST)在美國圣克拉拉舉行。計算機系教師章明星、武永衛(wèi)、鄭緯民團隊和月之暗面公司合作發(fā)表的論文“以鍵值緩存為中心的以存換算大語言模型推理架構(gòu)”(Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot)獲得埃里克·里德爾最佳論文獎(Erik Riedel Best Paper Award)。論文的第一作者為計算機系博士生秦若愚,導(dǎo)師為助理教授章明星。

最佳論文獎

該論文提出的系統(tǒng)Mooncake是月之暗面公司推出的大語言模型服務(wù)Kimi的底層推理服務(wù)平臺。Mooncake采用了一種以鍵值緩存(KVCache)為中心的分離架構(gòu),不僅將預(yù)填充和解碼集群分離,還高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC資源,構(gòu)建了一個獨立的KVCache緩存池。其核心創(chuàng)新在于以KVCache為中心的全局緩存和調(diào)度器,旨在嚴格延遲相關(guān)服務(wù)級別目標(SLOs)下最大化吞吐量。

實驗結(jié)果顯示,Mooncake在處理長上下文輸入的場景中表現(xiàn)出色。在使用真實數(shù)據(jù)進行的測試中,與基線方法相比,Mooncake在符合SLOs的情況下,將有效請求處理能力提升了59%至498%。目前,Mooncake已在數(shù)千個節(jié)點上運行,每日處理超過1000億個token。在實際部署中,Mooncake的創(chuàng)新架構(gòu)使Kimi在NVIDIA A800和H800集群上分別比以前的系統(tǒng)多處理115%和107%的請求。

FAST(File and Storage Technologies)是計算機存儲領(lǐng)域的頂級學(xué)術(shù)會議,已創(chuàng)立二十余年,在存儲領(lǐng)域具有重要影響力,被中國計算機學(xué)會(CCF)認定為存儲系統(tǒng)領(lǐng)域的A類國際學(xué)術(shù)會議。

責(zé)編: 趙碧瑩
來源:清華大學(xué) #清華大學(xué)#
THE END
關(guān)閉
加載

PDF 加載中...

国产欧美一二区不卡视频| 国产精品一区二区日本欧美| 被春药女高潮抽搐喷水视频| 国产操小骚逼视频| 玖玖资源站无码专区| 人妻波多野结衣爽到喷水| 正在播放舔穴视频| 大黑屌后入骚妇屁股| 国产一区二区三区三级88| 爆操大奶子美女视频| 骚穴手机在线视频| 中文字幕亚洲欧美精品一区二区| 二次元男生操女生屁眼爽| 操你的骚逼粉嫩AV| 精品的极品美女一区二区三区| 97性无码区免费| 亚洲男人的天堂2021| 鸡巴操骚逼视频播放| 亚洲欧美日韩清纯唯美第一区| 国产一区二区三区精品片| 欧美成人3p视频| 国产天美传媒剧免费观看| 欧美一区二区三区男人的天堂| 真人作爱免费视频| 欧美亚洲综合久久夜夜嗨| 国产精品不只是精品| 国产成人AV一区二区在线观看| avtt天堂网先锋伦理| 日韩欧美一区二区三区在线视频 | 一区二区三区 日韩在线| 日韩午夜经典福利| 男插女下面高潮视频| 加勒比五月综合久久伊人| 免费黄片视频星空| 狂插美女大屁股在线观看| 中文字幕一区二区 在线| 欧美国产三级片久久高清| 91麻豆精品福利在线观看| 成人黄色网破处在线播放| 永久性日韩无码视频| 玩弄邻居少妇呻吟11p|