近日,集成電路設(shè)計(jì)自動(dòng)化領(lǐng)域的國(guó)際傳統(tǒng)頂級(jí)會(huì)議之一的ASP-DAC(Asia and South Pacific Design Automation Conference, 亞洲及南太平洋設(shè)計(jì)自動(dòng)化會(huì)議)在日本東京落下帷幕。上海交通大學(xué)人工智能學(xué)院戴國(guó)浩副教授帶領(lǐng)團(tuán)隊(duì)完成的論文《ViDA: Video Diffusion Transformer Acceleration with Differential Approximation and Adaptive Dataflow》從約600篇投稿中脫穎而出,獲得前端最佳論文獎(jiǎng)。該論文提出的AI視頻生成模型的稀疏化加速器,首次實(shí)現(xiàn)了通過(guò)差分近似和自適應(yīng)數(shù)據(jù)流解決VDiT生成速度緩慢瓶頸,推理速度相比A100提升高達(dá)16.44倍。
研究背景
近年來(lái),視頻生成模型在影視制作、虛擬現(xiàn)實(shí)和內(nèi)容創(chuàng)作等領(lǐng)域展現(xiàn)了重要價(jià)值,其潛力吸引了越來(lái)越多的關(guān)注。隨著生成模型的逐步成熟,諸如自動(dòng)視頻生成、內(nèi)容增強(qiáng)以及特效制作等任務(wù)的效率和質(zhì)量均有顯著提升。
然而,這類模型通常需要處理高維度的時(shí)空數(shù)據(jù),計(jì)算復(fù)雜度高,尤其是在高分辨率和長(zhǎng)時(shí)序場(chǎng)景中,對(duì)計(jì)算資源的消耗極為巨大。因此,如何有效地加速視頻生成模型的推理過(guò)程,不僅對(duì)模型性能的優(yōu)化提出了更高的要求,也成為推動(dòng)生成技術(shù)落地的重要瓶頸問(wèn)題,給內(nèi)容創(chuàng)作、虛擬現(xiàn)實(shí)等產(chǎn)業(yè)帶來(lái)嚴(yán)峻挑戰(zhàn)。在這一背景下,針對(duì)特定生成任務(wù)設(shè)計(jì)高效的計(jì)算架構(gòu)和優(yōu)化算法成為當(dāng)前的研究重點(diǎn)。以O(shè)penAI的Sora為代表,視頻擴(kuò)散Transformer(VDiT)模型的最新進(jìn)展極大地推動(dòng)了視頻生成領(lǐng)域的發(fā)展。然而,VDiT推理過(guò)程中仍然存在幀間計(jì)算冗余和算子計(jì)算強(qiáng)度差異較大的問(wèn)題。現(xiàn)有基于有限幀間相似性的計(jì)算方法以及靜態(tài)硬件架構(gòu)和數(shù)據(jù)流設(shè)計(jì),無(wú)法有效解決VDiT推理速度緩慢的瓶頸。
研究成果
為應(yīng)對(duì)上述挑戰(zhàn),團(tuán)隊(duì)結(jié)合幀間預(yù)測(cè)的差分計(jì)算與幀內(nèi)稀疏特性的分析,提出了視頻生成模型的軟硬一體加速器ViDA,創(chuàng)造性地通過(guò)差分近似方法和自適應(yīng)數(shù)據(jù)流架構(gòu),利用稀疏性實(shí)現(xiàn)軟硬件協(xié)同優(yōu)化,從而大幅提升了VDiT的推理性能。
圖1:從視頻處理到視頻生成加速
ViDA的設(shè)計(jì)深受傳統(tǒng)視頻處理中基于相似性去除幀間冗余方法的啟發(fā)。如圖1所示,在傳統(tǒng)視頻處理中,幀間的高相似性被充分利用,通過(guò)對(duì)相鄰幀進(jìn)行分塊比較,將當(dāng)前幀的內(nèi)容表示為參考幀的基礎(chǔ)上疊加變化信息,從而有效去除幀間的冗余。這種方法不僅減少了存儲(chǔ)和傳輸中重復(fù)數(shù)據(jù)的占用,還能通過(guò)優(yōu)化預(yù)測(cè)和補(bǔ)償機(jī)制,大幅提高視頻編碼的效率。這種基于相似性的優(yōu)化策略為傳統(tǒng)視頻處理提供了顯著的存儲(chǔ)與傳輸優(yōu)勢(shì),同時(shí)也為生成模型的推理優(yōu)化提供了重要參考。
基于這一理念,ViDA結(jié)合視頻相似性預(yù)測(cè)的差分計(jì)算,提出了一套面向視頻生成模型的優(yōu)化方法。通過(guò)深度挖掘生成過(guò)程中的幀間激活相似性,ViDA有效減少了計(jì)算冗余,為推理效率和硬件性能的全面提升奠定了基礎(chǔ)。
首先,在算法層面,本文提出了差分近似計(jì)算方法,成功減少了Act-Act算子51.67%的計(jì)算量;
其次,在硬件層面,設(shè)計(jì)了列聚集處理單元,利用差分計(jì)算中的列稀疏模式,使面積效率提升了1.47倍;
最后,在數(shù)據(jù)流層面,構(gòu)建了計(jì)算強(qiáng)度自適應(yīng)數(shù)據(jù)流架構(gòu),將計(jì)算效率提升了1.76倍。
圖2:ViDA 與 CPU、GPU及SOTA加速器在三個(gè) VDiT模型上的加速和面積效率比較
圖2展示了ViDA與不同基線的性能表現(xiàn)。與A100 GPU相比,ViDA實(shí)現(xiàn)了16.44倍的性能提升;相較于ViTCoD、InterArch和CMC,加速比分別提升了2.48倍、2.39倍和2.18倍。這一顯著的性能提升主要得益于通過(guò)差分計(jì)算來(lái)同時(shí)計(jì)算Act-W和Act-Act算子,同時(shí)通過(guò)強(qiáng)度自適應(yīng)數(shù)據(jù)流設(shè)計(jì)滿足了長(zhǎng)視頻生成場(chǎng)景下對(duì)計(jì)算和存儲(chǔ)資源的復(fù)雜需求。
此外,ViDA在面積效率方面的表現(xiàn)同樣突出,其相較于A100 GPU提高了18.39倍;相較于ViTCoD、InterArch和CMC,幾何平均效率分別提升了2.39倍、2.43倍和2.35倍。這主要得益于列聚集處理單元在列稠密模式下對(duì)稠密處理單元和稀疏處理單元的高效利用,以及精細(xì)化的任務(wù)分配策略在相同硬件面積下實(shí)現(xiàn)了更優(yōu)的性能表現(xiàn)。
ViDA在多種主流VDiT模型上的實(shí)驗(yàn)結(jié)果表明,與NVIDIA A100 GPU和現(xiàn)有最先進(jìn)加速器相比,它分別實(shí)現(xiàn)了平均16.44倍/2.18倍的加速比和18.39倍/2.35倍的面積效率提升,可有效降低視頻生成模型對(duì)計(jì)算資源的消耗,加速視頻生成模型的推理過(guò)程,推動(dòng)視頻生成技術(shù)更好、更快、更大范圍產(chǎn)業(yè)化落地。
會(huì)議信息
亞太地區(qū)是全球硅芯片設(shè)計(jì)和制造最活躍的地區(qū),而ASP-DAC則是亞太地區(qū)最大的超大規(guī)模集成電路(VLSI)和電子設(shè)計(jì)自動(dòng)化(EDA)領(lǐng)域會(huì)議,與設(shè)計(jì)自動(dòng)化會(huì)議(DAC)、國(guó)際計(jì)算機(jī)輔助設(shè)計(jì)會(huì)議(ICCAD會(huì)議)、歐洲設(shè)計(jì)自動(dòng)化與測(cè)試會(huì)議(DATE)并稱為電子設(shè)計(jì)自動(dòng)化領(lǐng)域(EDA)的四大頂級(jí)會(huì)議。