科技界的開年王炸,英偉達最強顯卡官宣已有幾天。
這一炸,響徹聲至今仍不絕于耳。
在發(fā)布會上,黃老板舉起了自家顯卡,復(fù)刻了“美國隊長”的經(jīng)典pose。
這一刻仿佛在問全世界:Who is the real caption America?
英偉達為何有如此“大帝之姿”?不僅是因為其能夠精準捕捉到時代的一次次發(fā)展動向,更關(guān)鍵的是建立了CUDA生態(tài)護城河,可以說“英偉達因CUDA而得天下”,CUDA的誕生也讓無數(shù)開發(fā)者可以輕松利用GPU進行高效的計算任務(wù)。
而真正讓英偉達進階成傳奇的,是V100、A00、H100、H200等產(chǎn)品系列,它們將GPGPU的高密度并行計算功能指標(biāo)不斷大幅提升。GPGPU,也成為了一直以來國際公認的至強主流路線。
但科技是變化的,是向前的,時代的洪流會在特定的時間內(nèi)催生出新的技術(shù)與趨勢。
隨著AI時代的不斷演進,ASIC芯片(專用定制芯片)強勢崛起。依靠ASIC,博通市值突破1萬億美元,Marvell市值首次突破1000億美元。甚至有消息稱,英偉達或已成立了ASIC部門,正在到處挖掘ASIC人才。
ASIC不僅在國外發(fā)展迅速,縱觀國內(nèi),海思、寒武紀等企業(yè)也紛紛乘著ASIC快車,取得建樹。目前占據(jù)國內(nèi)較高市場份額的,就是某大廠的國產(chǎn)ASIC(NPU)芯片。且經(jīng)過長時間的宣傳,輿論內(nèi)外似乎都認為只有其才具備與國外抗衡的實力。
國產(chǎn)ASIC 挑戰(zhàn)GPGPU
短期來看,ASIC的異軍突起,無疑給AI算力芯片版圖帶來了新的變局,ASIC芯片已經(jīng)被視為目前挑戰(zhàn)GPU的一股不可忽視的力量,但長期發(fā)展來看,GPGPU路線的領(lǐng)先地位還是不可動搖。其中擁有“AI、GPGPU、全精度能力、兼容CUDA、生態(tài)優(yōu)勢”等這些利器的GPGPU芯片巨頭海光信息,無疑是在國內(nèi)表現(xiàn)最為突出的一個,但業(yè)內(nèi)對此了解度普遍不夠。
為深度了解GPGPU路線與ASIC差異,業(yè)內(nèi)人士將國內(nèi)領(lǐng)先的某NPU(ASIC架構(gòu))與海光的DCU系列(GPGPU架構(gòu)),在AI處理器領(lǐng)域最為重要的生態(tài)兼容及精度方面,進行了一番對比。
1、生態(tài)建設(shè)
海光DCU:海光DCU提供的自主開放完整軟件?!癉TK”,能夠全面兼容“類CUDA”生態(tài),且與國內(nèi)外主流大模型適配良好,依托DCU可以實現(xiàn)LLaMa、GPT、Bloom、ChatGLM、悟道、紫東太初等為代表的大模型的全面應(yīng)用,實現(xiàn)了“訓(xùn)推一體”的AI場景全覆蓋。且海光DCU擁有各種異構(gòu)庫、第三方廠商等的支持,已經(jīng)形成了非常完善的異構(gòu)軟件生態(tài)。
在基于GPGPU架構(gòu)的海光DCU之上,各種主流算法與模型可以做到“直接跑”,能夠進行低成本快速適配,避免了后續(xù)的BUG維護問題,從生態(tài)建設(shè)上來講,海光DCU已經(jīng)達到國內(nèi)領(lǐng)先水平。
國產(chǎn)NPU:NPU硬件性能雖然強悍,但生態(tài)系統(tǒng)相對比較局限,開發(fā)者可選的工具與框架選擇較少,且在實際應(yīng)用中,許多AI應(yīng)用并未針對NPU的架構(gòu)進行優(yōu)化,而是依賴于通用的軟件庫和工具,導(dǎo)致NPU的軟件生態(tài)相對較弱,運行效率不高,兼容性較差。
2、行業(yè)通用性和適用性
海光DCU:不僅適用于AI領(lǐng)域,還可以用于其他計算密集型任務(wù),如大規(guī)模數(shù)據(jù)集的科學(xué)和工程計算等,具有更廣泛的應(yīng)用前景和市場需求,目前海光DCU產(chǎn)品被廣泛應(yīng)用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等應(yīng)用場景。
國產(chǎn)NPU:主要專注于神經(jīng)網(wǎng)絡(luò)的加速,用于AI訓(xùn)練和推理計算,適用于視頻、圖像類的海量多媒體數(shù)據(jù),不涉及高精度算力應(yīng)用的領(lǐng)域,涉及領(lǐng)域比較單一。
3、精度計算
海光DCU:基于GPGPU架構(gòu),海光DCU具備全精度浮點數(shù)據(jù)和各種常見整型數(shù)據(jù)計算能力,擁有大規(guī)模并行計算的能力,能夠執(zhí)行更廣泛的通用計算任務(wù),快速開發(fā)高能效的應(yīng)用程序,特別適合于處理AI計算中大量的矩陣運算任務(wù)。
國產(chǎn)NPU:國產(chǎn)NPU屬于定制型芯片,專為深度學(xué)習(xí)和人工智能任務(wù)設(shè)計的專用處理器,適用范圍有限,在神經(jīng)網(wǎng)絡(luò)推理階段,通常使用低精度計算用來提升計算效率。
抹除信息差,對比出真知
綜上所述,我們可以得知,海光DCU在生態(tài)上的優(yōu)勢較為突出,對“類CUDA”等主流生態(tài)的兼容能力更強,在與國際主流大模型訓(xùn)練方向展和適配能力上表現(xiàn)更佳,還滿足了全場景多精度計算需求,憑借良好的適配性,大大降低了用戶的遷移成本,在各大領(lǐng)域的下游市場中獲得了極高的認可度,與百度、阿里等頭部互聯(lián)網(wǎng)廠商形成了多個標(biāo)桿案例。
國產(chǎn)NPU方面,盡管其在多精度等通用計算能力無法完全覆蓋,且目前的生態(tài)具有一定的局限性,但在一些特定領(lǐng)域的表現(xiàn),如神經(jīng)網(wǎng)絡(luò)推理方面,依然值得肯定。
最后想說的是,海光DCU目前的發(fā)展方向,與我國“六代機”及高鐵基本一致,走的是純國產(chǎn)高端技術(shù)路線,但鮮有人知其好在何處,還有人拿著“F22”與其類比。我想,也是時候應(yīng)該讓大家知道,好東西的標(biāo)準到底是什么,以及我們真的不缺這種好東西。