在人工智能大模型快速發(fā)展的今天,如何在保護(hù)用戶隱私的同時(shí)高效運(yùn)行 Transformer 模型,已成為學(xué)術(shù)界與產(chǎn)業(yè)界共同關(guān)注的前沿問題。用戶的輸入數(shù)據(jù)往往涉及醫(yī)療、金融、語(yǔ)音等高度敏感的內(nèi)容,而大模型的參數(shù)本身則是企業(yè)的核心資產(chǎn)。如何做到“既能用,又安全”,是隱私計(jì)算研究必須解決的關(guān)鍵挑戰(zhàn)。然而,現(xiàn)有的隱私推理框架往往依賴同態(tài)加密(HE)處理線性層、依賴多方安全計(jì)算(MPC)處理非線性層,不可避免地引入頻繁的協(xié)議切換與通信,導(dǎo)致開銷居高不下。以往的工作雖然嘗試在層與層之間進(jìn)行有限的融合,但受制于密文比特寬度膨脹和運(yùn)算協(xié)議效率不足,其提升效果仍相對(duì)有限。
在此背景下,北京大學(xué)集成電路學(xué)院李萌助理教授團(tuán)隊(duì)與 TikTok 的聯(lián)合團(tuán)隊(duì)提出了一種全新的隱私推理框架 BLB(Breaking the Layer Barrier)。BLB 的核心思想是“打破層級(jí)邊界”,不再將一層作為基本單位,而是將模型拆解到算子級(jí)別進(jìn)行細(xì)粒度融合。在 Transformer 模型中,諸如 LayerNorm、GeLU、Softmax 等非線性層都可以分解為多個(gè)線性算子與非線性算子的組合。BLB 通過將這些算子重新組合與融合,最大限度地減少了 HE 與 MPC 之間的切換,從根本上降低了通信開銷。團(tuán)隊(duì)還首次提出了真正安全的 CKKS ? MPC 轉(zhuǎn)換協(xié)議,解決了以往方案存在的隱私泄露隱患,并利用 CKKS 的 rescale 特性控制了密文比特寬度的增長(zhǎng)。在大規(guī)模矩陣乘法這一核心操作上,BLB 設(shè)計(jì)了旋轉(zhuǎn)優(yōu)化的同態(tài)協(xié)議,并結(jié)合 Multi-head Attention 的批處理特性與 BSGS 優(yōu)化,實(shí)現(xiàn)了對(duì)現(xiàn)有方法 8~29 倍的計(jì)算加速。
圖 1 BLB框架高層次示意圖
實(shí)驗(yàn)結(jié)果表明,在 BERT與 GPT2等Transformer-based模型上,BLB 相比 BOLT (S&P’24) 將通信量降低 21 倍,相比 Bumblebee (NDSS’25) 降低 2 倍;在 GPU 加速下,推理延遲最多可降低 13 倍。正如審稿人所評(píng)價(jià)的那樣,BLB 的思想不僅適用于 Transformer,更能夠推廣到廣泛的雙方隱私計(jì)算任務(wù)場(chǎng)景,為未來(lái)大模型的隱私保護(hù)推理提供了全新的路徑。
表 1 BLB與其余SOTA框架性能對(duì)比
該研究以北京大學(xué)李萌助理教授為通訊作者,北京大學(xué)集成電路學(xué)院博士生許天識(shí)、俞江瑞與TikTok研究員陸文杰共同擔(dān)任一作。成果已在 USENIX Security 2025 正式發(fā)表,展現(xiàn)了產(chǎn)學(xué)研結(jié)合在隱私計(jì)算與人工智能交叉領(lǐng)域的巨大潛力。
USENIX Security Symposium 是全球計(jì)算機(jī)安全領(lǐng)域最具影響力的頂級(jí)學(xué)術(shù)會(huì)議之一,同時(shí)也是 CCF A 類會(huì)議,與 IEEE S&P、ACM CCS、NDSS 并稱為“安全四大頂會(huì)”。會(huì)議自 1990 年創(chuàng)辦以來(lái),持續(xù)推動(dòng)了密碼學(xué)、系統(tǒng)安全、隱私保護(hù)、網(wǎng)絡(luò)防御等方向的發(fā)展。憑借嚴(yán)格的評(píng)審機(jī)制與約 17% 的低錄用率,在該會(huì)議上發(fā)表論文被廣泛視為安全與隱私研究領(lǐng)域的重要突破與最高榮譽(yù)之一。