上海交通大學(xué)與無(wú)問(wèn)芯穹聯(lián)合團(tuán)隊(duì)獲ASP-DAC 25最佳論文獎(jiǎng)

作者：集小微 02-25 23:08

來(lái)源：上海交通大學(xué) #無(wú)問(wèn)芯穹# #上海交大# #AI加速#

近日，集成電路設(shè)計(jì)自動(dòng)化領(lǐng)域的國(guó)際傳統(tǒng)頂級(jí)會(huì)議之一的ASP-DAC（Asia and South Pacific Design Automation Conference, 亞洲及南太平洋設(shè)計(jì)自動(dòng)化會(huì)議）在日本東京落下帷幕。上海交通大學(xué)人工智能學(xué)院戴國(guó)浩副教授帶領(lǐng)團(tuán)隊(duì)完成的論文《ViDA: Video Diffusion Transformer Acceleration with Differential Approximation and Adaptive Dataflow》從約600篇投稿中脫穎而出，獲得前端最佳論文獎(jiǎng)。該論文提出的AI視頻生成模型的稀疏化加速器，首次實(shí)現(xiàn)了通過(guò)差分近似和自適應(yīng)數(shù)據(jù)流解決VDiT生成速度緩慢瓶頸，推理速度相比A100提升高達(dá)16.44倍。

研究背景

近年來(lái)，視頻生成模型在影視制作、虛擬現(xiàn)實(shí)和內(nèi)容創(chuàng)作等領(lǐng)域展現(xiàn)了重要價(jià)值，其潛力吸引了越來(lái)越多的關(guān)注。隨著生成模型的逐步成熟，諸如自動(dòng)視頻生成、內(nèi)容增強(qiáng)以及特效制作等任務(wù)的效率和質(zhì)量均有顯著提升。

然而，這類模型通常需要處理高維度的時(shí)空數(shù)據(jù)，計(jì)算復(fù)雜度高，尤其是在高分辨率和長(zhǎng)時(shí)序場(chǎng)景中，對(duì)計(jì)算資源的消耗極為巨大。因此，如何有效地加速視頻生成模型的推理過(guò)程，不僅對(duì)模型性能的優(yōu)化提出了更高的要求，也成為推動(dòng)生成技術(shù)落地的重要瓶頸問(wèn)題，給內(nèi)容創(chuàng)作、虛擬現(xiàn)實(shí)等產(chǎn)業(yè)帶來(lái)嚴(yán)峻挑戰(zhàn)。在這一背景下，針對(duì)特定生成任務(wù)設(shè)計(jì)高效的計(jì)算架構(gòu)和優(yōu)化算法成為當(dāng)前的研究重點(diǎn)。以O(shè)penAI的Sora為代表，視頻擴(kuò)散Transformer（VDiT）模型的最新進(jìn)展極大地推動(dòng)了視頻生成領(lǐng)域的發(fā)展。然而，VDiT推理過(guò)程中仍然存在幀間計(jì)算冗余和算子計(jì)算強(qiáng)度差異較大的問(wèn)題。現(xiàn)有基于有限幀間相似性的計(jì)算方法以及靜態(tài)硬件架構(gòu)和數(shù)據(jù)流設(shè)計(jì)，無(wú)法有效解決VDiT推理速度緩慢的瓶頸。

研究成果

為應(yīng)對(duì)上述挑戰(zhàn)，團(tuán)隊(duì)結(jié)合幀間預(yù)測(cè)的差分計(jì)算與幀內(nèi)稀疏特性的分析，提出了視頻生成模型的軟硬一體加速器ViDA，創(chuàng)造性地通過(guò)差分近似方法和自適應(yīng)數(shù)據(jù)流架構(gòu)，利用稀疏性實(shí)現(xiàn)軟硬件協(xié)同優(yōu)化，從而大幅提升了VDiT的推理性能。

圖1：從視頻處理到視頻生成加速

ViDA的設(shè)計(jì)深受傳統(tǒng)視頻處理中基于相似性去除幀間冗余方法的啟發(fā)。如圖1所示，在傳統(tǒng)視頻處理中，幀間的高相似性被充分利用，通過(guò)對(duì)相鄰幀進(jìn)行分塊比較，將當(dāng)前幀的內(nèi)容表示為參考幀的基礎(chǔ)上疊加變化信息，從而有效去除幀間的冗余。這種方法不僅減少了存儲(chǔ)和傳輸中重復(fù)數(shù)據(jù)的占用，還能通過(guò)優(yōu)化預(yù)測(cè)和補(bǔ)償機(jī)制，大幅提高視頻編碼的效率。這種基于相似性的優(yōu)化策略為傳統(tǒng)視頻處理提供了顯著的存儲(chǔ)與傳輸優(yōu)勢(shì)，同時(shí)也為生成模型的推理優(yōu)化提供了重要參考。

基于這一理念，ViDA結(jié)合視頻相似性預(yù)測(cè)的差分計(jì)算，提出了一套面向視頻生成模型的優(yōu)化方法。通過(guò)深度挖掘生成過(guò)程中的幀間激活相似性，ViDA有效減少了計(jì)算冗余，為推理效率和硬件性能的全面提升奠定了基礎(chǔ)。

首先，在算法層面，本文提出了差分近似計(jì)算方法，成功減少了Act-Act算子51.67%的計(jì)算量；
其次，在硬件層面，設(shè)計(jì)了列聚集處理單元，利用差分計(jì)算中的列稀疏模式，使面積效率提升了1.47倍；
最后，在數(shù)據(jù)流層面，構(gòu)建了計(jì)算強(qiáng)度自適應(yīng)數(shù)據(jù)流架構(gòu)，將計(jì)算效率提升了1.76倍。

圖2：ViDA 與 CPU、GPU及SOTA加速器在三個(gè) VDiT模型上的加速和面積效率比較

圖2展示了ViDA與不同基線的性能表現(xiàn)。與A100 GPU相比，ViDA實(shí)現(xiàn)了16.44倍的性能提升；相較于ViTCoD、InterArch和CMC，加速比分別提升了2.48倍、2.39倍和2.18倍。這一顯著的性能提升主要得益于通過(guò)差分計(jì)算來(lái)同時(shí)計(jì)算Act-W和Act-Act算子，同時(shí)通過(guò)強(qiáng)度自適應(yīng)數(shù)據(jù)流設(shè)計(jì)滿足了長(zhǎng)視頻生成場(chǎng)景下對(duì)計(jì)算和存儲(chǔ)資源的復(fù)雜需求。

此外，ViDA在面積效率方面的表現(xiàn)同樣突出，其相較于A100 GPU提高了18.39倍；相較于ViTCoD、InterArch和CMC，幾何平均效率分別提升了2.39倍、2.43倍和2.35倍。這主要得益于列聚集處理單元在列稠密模式下對(duì)稠密處理單元和稀疏處理單元的高效利用，以及精細(xì)化的任務(wù)分配策略在相同硬件面積下實(shí)現(xiàn)了更優(yōu)的性能表現(xiàn)。

ViDA在多種主流VDiT模型上的實(shí)驗(yàn)結(jié)果表明，與NVIDIA A100 GPU和現(xiàn)有最先進(jìn)加速器相比，它分別實(shí)現(xiàn)了平均16.44倍/2.18倍的加速比和18.39倍/2.35倍的面積效率提升，可有效降低視頻生成模型對(duì)計(jì)算資源的消耗，加速視頻生成模型的推理過(guò)程，推動(dòng)視頻生成技術(shù)更好、更快、更大范圍產(chǎn)業(yè)化落地。

會(huì)議信息

亞太地區(qū)是全球硅芯片設(shè)計(jì)和制造最活躍的地區(qū)，而ASP-DAC則是亞太地區(qū)最大的超大規(guī)模集成電路（VLSI）和電子設(shè)計(jì)自動(dòng)化（EDA）領(lǐng)域會(huì)議，與設(shè)計(jì)自動(dòng)化會(huì)議（DAC）、國(guó)際計(jì)算機(jī)輔助設(shè)計(jì)會(huì)議（ICCAD會(huì)議）、歐洲設(shè)計(jì)自動(dòng)化與測(cè)試會(huì)議（DATE）并稱為電子設(shè)計(jì)自動(dòng)化領(lǐng)域（EDA）的四大頂級(jí)會(huì)議。