2月25日至27日,第23屆USENIX文件與存儲技術(shù)會議(USENIX Conference on File and Storage Technologies,FAST)在美國圣克拉拉舉行。計算機系教師章明星、武永衛(wèi)、鄭緯民團隊和月之暗面公司合作發(fā)表的論文“以鍵值緩存為中心的以存換算大語言模型推理架構(gòu)”(Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot)獲得埃里克·里德爾最佳論文獎(Erik Riedel Best Paper Award)。論文的第一作者為計算機系博士生秦若愚,導(dǎo)師為助理教授章明星。
最佳論文獎
該論文提出的系統(tǒng)Mooncake是月之暗面公司推出的大語言模型服務(wù)Kimi的底層推理服務(wù)平臺。Mooncake采用了一種以鍵值緩存(KVCache)為中心的分離架構(gòu),不僅將預(yù)填充和解碼集群分離,還高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC資源,構(gòu)建了一個獨立的KVCache緩存池。其核心創(chuàng)新在于以KVCache為中心的全局緩存和調(diào)度器,旨在嚴格延遲相關(guān)服務(wù)級別目標(SLOs)下最大化吞吐量。
實驗結(jié)果顯示,Mooncake在處理長上下文輸入的場景中表現(xiàn)出色。在使用真實數(shù)據(jù)進行的測試中,與基線方法相比,Mooncake在符合SLOs的情況下,將有效請求處理能力提升了59%至498%。目前,Mooncake已在數(shù)千個節(jié)點上運行,每日處理超過1000億個token。在實際部署中,Mooncake的創(chuàng)新架構(gòu)使Kimi在NVIDIA A800和H800集群上分別比以前的系統(tǒng)多處理115%和107%的請求。
FAST(File and Storage Technologies)是計算機存儲領(lǐng)域的頂級學(xué)術(shù)會議,已創(chuàng)立二十余年,在存儲領(lǐng)域具有重要影響力,被中國計算機學(xué)會(CCF)認定為存儲系統(tǒng)領(lǐng)域的A類國際學(xué)術(shù)會議。