2025年以來,生成式 AI領(lǐng)域的一個顯著發(fā)展趨勢就是向邊緣側(cè)快速滲透,AI手機(jī)、AI PC、AI眼鏡、AIoT等應(yīng)用的熱度不斷增加,乃至有人將2025年定義為邊緣生成式AI的應(yīng)用元年。然而,在邊緣側(cè)潛力被不斷挖掘的同時,網(wǎng)絡(luò)延遲、數(shù)據(jù)安全以及隱私保護(hù)等問題也逐漸凸顯。這就需要不斷推進(jìn)硬軟件技術(shù),以滿足AI模型市場新的需求。今日(5月8日),Imagination 公司推出了面向邊緣AI運(yùn)算的新一代E系列GPU IP,INT8/FP8算力可在2到200 TOPS的范圍內(nèi)擴(kuò)展,為邊緣應(yīng)用提供了新的通用且可編程的解決方案。
邊緣AI新風(fēng)口將至
調(diào)研機(jī)構(gòu)Gartner預(yù)測,到2026年全球?qū)⒂?0%的企業(yè)使用生成式AI,50%的邊緣部署將包含AI。邊緣AI作為一種通過設(shè)備本地化處理數(shù)據(jù)的技術(shù),受到越來越多的支持。對此,Imagination中國區(qū)技術(shù)總監(jiān)艾克指出,邊緣AI憑借獨(dú)特的技術(shù)架構(gòu)與部署模式,在安全隱私、實(shí)時響應(yīng)、能源效率等領(lǐng)域展現(xiàn)出顯著優(yōu)勢,正在成為推動智能化變革的關(guān)鍵力量。
在安全隱私層面,邊緣AI將數(shù)據(jù)處理從云端下沉至本地設(shè)備或邊緣節(jié)點(diǎn),數(shù)據(jù)無需長途傳輸至遠(yuǎn)程服務(wù)器,有效降低了數(shù)據(jù)在傳輸過程中被截獲、篡改或泄露的風(fēng)險。尤其在醫(yī)療、金融等對數(shù)據(jù)保密性要求極高的領(lǐng)域,敏感信息可在本地完成分析處理,數(shù)據(jù)的安全性更高。
在實(shí)時要求方面,邊緣AI無需等待數(shù)據(jù)往返云端,直接在邊緣側(cè)完成分析與指令輸出,極大縮短了延遲,對即時響應(yīng)要求更高的場景,如工業(yè)自動化、智能交通等領(lǐng)域,可以確保任務(wù)的高效執(zhí)行,滿足對實(shí)時性的苛刻要求。
在能源效率與可持續(xù)發(fā)展方面,邊緣AI減少了數(shù)據(jù)的長距離傳輸與云端大規(guī)模計算,可以降低能耗。數(shù)據(jù)中心的冷卻、服務(wù)器運(yùn)行等環(huán)節(jié)均需消耗大量電力,邊緣AI分布式處理數(shù)據(jù)的模式,減少了對高能耗云端計算資源的依賴。
移動GPU有何核心優(yōu)勢?
移動GPU作為專為便攜式設(shè)備及嵌入式系統(tǒng)優(yōu)化的高性能計算單元,在邊緣AI領(lǐng)域展現(xiàn)出日益顯著的性能優(yōu)勢。從計算效率層面來看,移動GPU具備高度并行化的計算架構(gòu),其內(nèi)部集成了大量專為矩陣運(yùn)算和向量運(yùn)算優(yōu)化的計算核心,能夠同時處理海量的數(shù)據(jù)計算任務(wù)。在功耗控制方面,相較于傳統(tǒng)的桌面級GPU或CPU,移動GPU在設(shè)計之初就充分考慮了移動設(shè)備和邊緣計算場景對功耗的嚴(yán)格限制,能夠在提供強(qiáng)大計算能力的同時,將功耗控制在極低水平。此外,Imagination公司產(chǎn)品管理副總裁 Kristof Beets強(qiáng)調(diào),相對于在邊緣AI領(lǐng)域同樣有著廣泛應(yīng)用的NPU而言,移動GPU還具有更高的通用性。
首先,移動GPU基于通用計算架構(gòu)設(shè)計,可以同時支持圖形渲染、視頻編解碼及AI推理等多樣化任務(wù)。其次,移動GPU采用可編程著色器核心,可以支持動態(tài)調(diào)整計算單元的分配比例,在處理高分辨率視頻流時,GPU可分配更多資源用于圖像處理;而在運(yùn)行AI推理任務(wù)時,則可快速切換至矩陣運(yùn)算模式。第三,相比NPU的專用硬件加速單元,GPU的通用性使其能通過軟件更新適配新興算法,例如快速支持新提出的輕量化神經(jīng)網(wǎng)絡(luò)架構(gòu)等。
“NPU與我們新推出的E系列GPU之間,一個重要的區(qū)別就在于——NPU 是為支持一些特定AI應(yīng)用而設(shè)計,一旦出現(xiàn)了新的應(yīng)用,NPU處理不了,這項任務(wù)就不得不被交給CPU去處理,CPU在處理這些交回的任務(wù)時往往會產(chǎn)生較大延遲,對性能的影響也很大。Imagination則在E系列GPU的管線當(dāng)中整合了可編程的AI加速引擎。因此,從原則上講,移動GPU不存在某個處理不了的AI任務(wù),也就不會出現(xiàn)不得不交給其他的處理單元兜底的情況。這對用戶應(yīng)對快速更新迭代的AI行業(yè)十分重要?!盞ristof Beets表示。
Kristof Beets還表示,GPU在軟件工具與生態(tài)上更具優(yōu)勢。Imagination的策略是支持市面上被廣泛使用的接口和工具,如Vulkan、OpenCL 和TensoRT等。公司花費(fèi)了大量精力進(jìn)行優(yōu)化工作,可以確保不同AI工具和接口與公司的硬件可以更好地進(jìn)行配合。此外,行業(yè)內(nèi)熟悉GPU編程的人才很多。相對而言卻短缺熟悉NPU編程的人才。這使 GPU在AI生態(tài)系統(tǒng)上擁有更大的優(yōu)勢。
E系列助力邊緣AI新突破
Imagination公司在以往D系列的基礎(chǔ)上,推出新一代面向邊緣AI運(yùn)算的E系列GPU IP,為邊緣AI應(yīng)用提供了更多的新選擇。據(jù)了解,E系列GPU有兩項核心創(chuàng)新:一是Neural Cores(神經(jīng)核)最高可擴(kuò)展至200 TOPS(INT8/FP8),可以顯著提升AI計算性能;二是嵌入創(chuàng)新的Burst Processors(爆發(fā)式處理器)架構(gòu)設(shè)計,使邊緣應(yīng)用中平均功耗效率提升35%。
具體而言,E系列延續(xù)了Imagination GPU一貫強(qiáng)大的圖形處理能力,包括對光線追蹤的支持。在此基礎(chǔ)上,每個GPU核都深度集成了低精度、高能效的AI加速能力,構(gòu)建出計算密度極高的神經(jīng)核,使其性能可擴(kuò)展至200 TOPS(INT8/FP8),AI性能較前代D系列提升400%。
另一方面,E系列引入全新的爆發(fā)式處理器(Burst Processors)技術(shù)。它是非常深度地集成在 GPU當(dāng)中的一個處理單元,改變了GPU原本的指令調(diào)度方式,在執(zhí)行爆發(fā)式數(shù)據(jù)處理時,所有計算都會嘗試去利用爆發(fā)處理器的能力,盡可能多地重復(fù)利用和共享。這樣可以減少很多不必要的計算開銷,實(shí)現(xiàn)能效提升。據(jù)介紹,在AI推理、游戲和用戶界面等工作負(fù)載下,平均功耗效率可以提升35%。
Kristof Beets進(jìn)一步指出,未來隨著邊緣AI應(yīng)用的增長,實(shí)時性和多模態(tài)處理需求如對數(shù)據(jù)、圖像、音頻、文字的處理需求,將會更多。在這一方面,GPU解決方案也更具優(yōu)勢?!耙驗闊o論是什么樣的工作負(fù)載,本質(zhì)上都是在利用GPU解決方案的高靈活性。這種支持多個神經(jīng)網(wǎng)絡(luò)同時運(yùn)行的多任務(wù)處理能力,非常適用于GPU的多核技術(shù)。NPU在執(zhí)行高并發(fā)處理方面,卻會受到很多限制?!盞ristof Beets強(qiáng)調(diào)。