亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

手機NPU十年進化史:智算無界 有龍則靈

來源:愛集微 #高通# #AI# #NPU# #異構(gòu)計算#
5w

過去十年,智能終端的AI能力逐步提升,特別是近年來受到生成式AI浪潮的推動,終端AI進入到全新的發(fā)展階段,從早期的圖像處理到手機助手,帶來終端交互和體驗上的顛覆式變革。

在這個過程中,NPU以及異構(gòu)計算作為終端AI的算力基石底座,發(fā)揮了重要作用,有力地支持和推動了終端AI以及生成式AI的廣泛規(guī)模普及,持續(xù)進化引領(lǐng)著智能手機行業(yè)創(chuàng)新的方向。

作為終端AI的賦能者,十余年來,高通始終致力于終端AI技術(shù)的創(chuàng)新,持續(xù)保持在傳統(tǒng)AI以及生成式AI時代的行業(yè)領(lǐng)先地位。這家以讓智能計算無處不在為愿景的創(chuàng)新公司,正通過NPU和異構(gòu)計算,推動終端AI不斷達到新的高度。

手機AI,誰才是起點?

NPU(Neural network Processing Unit,即神經(jīng)網(wǎng)絡(luò)處理器)是專門用于處理AI負(fù)載的硬件,在行業(yè)引起廣泛關(guān)注在2016年前后。

彼時,寒武紀(jì)發(fā)布全球首款商用終端AI處理器,在運行計算機視覺、語音識別、自然語言處理等智能處理關(guān)鍵領(lǐng)域,性能、能耗等均全面超越傳統(tǒng)CPU和GPU,由此拉開終端AI的序幕。

出于商業(yè)等因素的考慮,形式上看,NPU并未成為廠商們的統(tǒng)一稱謂,但實質(zhì)上,通過設(shè)計專用硬件處理相關(guān)AI工作負(fù)載已經(jīng)成為手機處理器設(shè)計中的趨勢以及塑造差異化競爭力的顯著標(biāo)簽。

隨后,一些具有自研芯片優(yōu)勢的系統(tǒng)整機廠商迅速推出相關(guān)產(chǎn)品。2017年,通過和寒武紀(jì)的合作,華為Mate10中搭載的麒麟970中首次集成AI模塊,蘋果推出搭載AI仿生引擎的Iphone X,手機AI元年自此開啟。

2018年,聯(lián)發(fā)科推出AI平臺NeuroPilot,整合了AI處理器APU。三星在推出的Exynos 9820中首次搭載NPU,智能手機全面進入AI時代,智能相冊分類、APP預(yù)加載等功能出現(xiàn),人臉識別、深度學(xué)習(xí)等AI技術(shù)開始廣泛在智能手機應(yīng)用中落地。

芯片、手機領(lǐng)域的快速發(fā)展和激烈競爭,大量的復(fù)制、營銷和包裝下的結(jié)果是很容易讓人們忽視掉這個行業(yè)真正的原始創(chuàng)新者。

事實上,率先提出并應(yīng)用NPU概念的并非是華為和蘋果,而是高通。

2013年,高通推出首款量產(chǎn)采用創(chuàng)新架構(gòu)設(shè)計的處理器Zeroth。Zeroth的結(jié)構(gòu)完全不同于當(dāng)時的驍龍系列芯片,而是更接近于用電路對生物神經(jīng)細(xì)胞進行模擬,從而在智能終端上實現(xiàn)近似生物神經(jīng)網(wǎng)絡(luò)的智能感知與判斷操作。

彼時,高通便將這一新的處理架構(gòu)稱之為NPU。通過Zeroth,高通能夠?qū)C器學(xué)習(xí)等能力引入到移動平臺,包括通過對人臉和物體識別進行圖像自動分類,也可以通過傳感器實現(xiàn)對周圍環(huán)境的監(jiān)控輸入,同時終端運行也實現(xiàn)了對于用戶隱私的保護。

2015年發(fā)布的驍龍820中首次集成高通AI引擎

2014年,高通收購AI圖像識別技術(shù)公司Euvision,進一步探索AI在移動端的潛在用例,并在隨后將源于Zeroth的AI加速架構(gòu)引入到2015年推出的驍龍820移動平臺的設(shè)計之中,支持圖像,音頻和傳感器運算,以此奠定了驍龍系列高通AI引擎的基礎(chǔ),驍龍820也是首次集成高通“第一代AI引擎”的移動平臺。

是的,如你所見,十年前高通的Zeroth,才是移動終端NPU的祖師爺。而在2007年,高通便啟動了首個AI研究項目,首款Hexagon DSP在驍龍平臺上正式亮相——DSP控制和標(biāo)量架構(gòu)成為高通未來多代NPU的基礎(chǔ)。

此后,高通便始終主導(dǎo)和推動著NPU領(lǐng)域的創(chuàng)新,緊跟終端AI行業(yè)的技術(shù)演進方向和需求,不斷提升和豐富NPU的特性和功能。

2018年,高通在驍龍855上中為Hexagon NPU增加了Hexagon張量加速器。2019年,高通在驍龍865的拓展了終端AI用例,包括AI成像、AI視頻、AI語音和始終在線的感知功能。

2020年,高通為Hexagon NPU帶來了變革性的架構(gòu)更新。融合了向量、張量、標(biāo)量加速器,實現(xiàn)更好的性能功耗表現(xiàn)。同時還為加速器打造了專用大共享內(nèi)存,讓共享和遷移數(shù)據(jù)更加高效。這種融合AI加速器架構(gòu)為高通未來的NPU架構(gòu)奠定了堅實基礎(chǔ)。

2022年,驍龍8Gen2中的Hexagon NPU實現(xiàn)了眾多重要技術(shù)的加強。包括能夠根據(jù)工作負(fù)載動態(tài)適配供電的專用電源傳輸軌道。最大化利用NPU中的標(biāo)量、向量、張量加速器并降低功耗的微切片推理。提升能效和內(nèi)存帶寬效率的INT4;用于加快生成式AI的多頭注意力機制的推理速度的Transformer網(wǎng)絡(luò)加速;以及包括優(yōu)化了的分組卷積、激活函數(shù)和張量加速器性能的其他特殊硬件等。

2023年,高通在驍龍8Gen3中,又進一步升級了NPU微架構(gòu)以及相關(guān)能力,為持續(xù)AI推理帶來98%性能提升和40%能效提升,從而實現(xiàn)對于生成式AI的更好支持。

如何打造一顆優(yōu)秀的NPU?

十余年來,得益于NPU和異構(gòu)計算領(lǐng)域的開拓性創(chuàng)新,高通構(gòu)建起在終端AI側(cè)的行業(yè)領(lǐng)導(dǎo)力,在生成式AI時代,這一優(yōu)勢進一步凸顯。

生成式AI的快速發(fā)展,帶來不同場景下用例的多樣化計算需求,傳統(tǒng)的以通用計算為目的的CPU、GPU難以滿足。

比如,當(dāng)前AI用例需求主要體現(xiàn)為三類:

一是按需型。需要立即響應(yīng)用戶需求,如圖像生成、編輯、代碼生成、摘要、文本創(chuàng)作等。

二是持續(xù)型。對于運行時間較長的用例,如語音識別、超級分辨率、視頻語音通話處理及實時翻譯等。

三是泛在型。用例在后臺持續(xù)運行,包始終開啟的基于情境感知的AI個性化助手等。

對于上述用例,傳統(tǒng)的通用CPU和GPU很難滿足其所帶來的功耗和熱限制。此外,用例也將會不斷拓展,在功能完全固定的硬件上部署并不實際。因此,需要以AI為中心定制設(shè)計全新的計算架構(gòu),包括面向生成式AI全新設(shè)計,專為實現(xiàn)低功耗加速AI推理而打造的NPU,并與AI行業(yè)的發(fā)展方向保持一致。

如何設(shè)計一個優(yōu)秀的NPU產(chǎn)品?高通給出的答案是:系統(tǒng)級解決方案、定制化設(shè)計和快速迭代創(chuàng)新。這也是其Hexagon NPU的顯著差異化競爭優(yōu)勢。

首先,系統(tǒng)級解決方案有助于構(gòu)建起芯片設(shè)計的全局視角,考量每個處理器的架構(gòu)、SoC系統(tǒng)架構(gòu)和軟件基礎(chǔ)設(shè)施。從而能夠發(fā)現(xiàn)當(dāng)前和潛在的瓶頸,并在增加或修改硬件方面做出恰當(dāng)?shù)臋?quán)衡和決策。通過跨應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型、算法、軟件和硬件的全棧AI研究與優(yōu)化全面實現(xiàn)。

第二,需要具備定制化設(shè)計的能力以及控制指令集架構(gòu)(ISA),從而使架構(gòu)師能夠快速進行設(shè)計演進和擴展以解決瓶頸問題。

第三,上述迭代改進和反復(fù)循環(huán),使得高通能夠基于最新神經(jīng)網(wǎng)絡(luò)架構(gòu)持續(xù)快速增強高通NPU和高通AI軟件棧。基于高通的自主AI研究以及與廣大AI社區(qū)的合作,使得能夠與AI模型的發(fā)展保持同步。高通具有開展基礎(chǔ)性AI研究以支持全棧終端側(cè)AI開發(fā)的獨特能力,可賦能產(chǎn)品快速上市,并圍繞終端側(cè)生成式AI等關(guān)鍵應(yīng)用優(yōu)化NPU部署。

因此,歷經(jīng)多代演進的NPU,利用大量的技術(shù)創(chuàng)新和迭代成果消除瓶頸。例如,在驍龍8Gen3中,進行了諸多用于支持生成式AI大模型的架構(gòu)升級。

比如,內(nèi)存帶寬是大語言模型Token生成的瓶頸,這意味著其性能表現(xiàn)更受限于內(nèi)存帶寬而非處理能力。因此,Hexagon NPU的設(shè)計中特別注意了提高內(nèi)存帶寬效率,驍龍8Gen3中,高通將Hexagon NPU中的專用共享大內(nèi)存的帶寬翻倍,此外,驍龍8Gen3還支持業(yè)界最快的內(nèi)存配置之一:4.8GHz LPDDR5x,支持77GB/s帶寬,從而滿足生成式A用例日益增長的內(nèi)存需求。

高通認(rèn)為,從DSP架構(gòu)入手打造NPU是正確的選擇,可以改善可編程性,并能夠緊密控制用于 AL處理的標(biāo)量、向量和張量運算。高通優(yōu)化標(biāo)量、向量和張量加速的設(shè)計方案結(jié)合本地共享大內(nèi)存、專用供電系統(tǒng)和其他硬件加速,讓高通的解決方案獨樹一幟。高通NPU能夠模仿最主流模型的神經(jīng)網(wǎng)絡(luò)層和運算,比如卷積、全連接層、Transformer以及主流激活函數(shù),以低功耗實現(xiàn)持續(xù)穩(wěn)定的高性能表現(xiàn)。

異構(gòu)計算:推開終端AI的大門

以AI為中心,高通打造了行業(yè)領(lǐng)先的處理器異構(gòu)計算架構(gòu)——高通AI引擎,包括Hexagon NPU、Adreno GPU、Kryo CPU或Oryon CPU,高通傳感器中樞和內(nèi)存子系統(tǒng)。其中,Hexagon NPU是關(guān)鍵一部分,這些處理器為實現(xiàn)協(xié)同工作而設(shè)計,能夠在端側(cè)快速高效運行AI應(yīng)用。

如今,適合在終端側(cè)運行的生成式AI正變得更為復(fù)雜,參數(shù)規(guī)模也變得更加龐大,從10億到100億到700億參數(shù)。他們正進入多模態(tài)階段,意味著可以進行多樣的輸入,例如文本,語音,圖像等,并生成多種輸出結(jié)果。

這種帶有復(fù)雜性、并發(fā)性和多樣性的生成式AI負(fù)載,通常需要利用SoC中所有處理器的能力。因此,具備跨處理器和內(nèi)核支持生成式AI的擴展能力,以及能夠?qū)⑸墒紸I模型和用例映射至一個或多個處理器及內(nèi)核的解決方案非常重要。

即異構(gòu)計算系統(tǒng)解決方案需要針對不同負(fù)載的類型,選擇合適的處理器。這其中涉及的因素包括用例、設(shè)備類型、終端層級、研發(fā)時間、關(guān)鍵性能指標(biāo)、開發(fā)者專長等,系統(tǒng)設(shè)計方案需要在眾多因素中間權(quán)衡。

如前所述,多數(shù)生成式AI用例能夠分為按需,持續(xù)或泛在型。在按需型用例中,延遲是KPI,因為用戶不想等待。當(dāng)這些應(yīng)用使用小模型時,CPU通常是最佳選擇。當(dāng)模型來到數(shù)十億參數(shù)時,GPU和NPU更加合適。對于持續(xù)和泛在的用例,電池續(xù)航和能效往往是重要關(guān)鍵因素,此時NPU便成為最佳選擇。

另一個關(guān)鍵區(qū)別在于AI模型為內(nèi)存限制型(性能受到內(nèi)存帶寬的限制),還是計算限制型(性能受到處理器性能限制)。如今大語言模型在生成文本時都受到內(nèi)存限制,因此需要關(guān)注CPU,GPU和NPU的內(nèi)存效率。而對于大視頻模型而言,更受計算和存儲限制的,需要GPU和NPU支持,NPU能夠提供最佳能效。

在2023年的驍龍峰會上,高通在搭載驍龍8Gen3的智能手機上,演示了語音控制的AI個人助手,支持手機屏幕上的虛擬化身實現(xiàn)實時動畫效果。這個過程很好的展示了如何通過高通的異構(gòu)計算解決方案實現(xiàn)針對AI用例和具體場景的設(shè)計。

1、當(dāng)用戶與AI語音助手交談時,聲音通過OpenAI的自動語音識別(ASR)生成式AI模型Whisper轉(zhuǎn)換成文本,這個過程是在高通傳感器中樞上運行的。

2、AI助手使用Llmam20-70億大模型生成文本回復(fù),該過程在NPU上進行。

3、利用在CPU上運行的開源TTS模型將文本轉(zhuǎn)換成語音。

4、同時,虛擬化身渲染必須與語音輸出同步,以獲得足夠真實的用戶交互界面。借助于音頻創(chuàng)建融合變形動畫(blendshape),能夠使嘴部和面部表情帶來合適的動畫效果。這種傳統(tǒng)的AI工作負(fù)載在NPU上運行。

5、最終虛擬化身渲染過程在GPU上進行。以上步驟,數(shù)據(jù)都會通過內(nèi)存子系統(tǒng)有效傳輸,并盡可能在芯片上保存數(shù)據(jù)。

生成式AI大放光彩,有龍則靈

憑借在NPU以及異構(gòu)計算上的深厚積累,高通持續(xù)推動終端AI的落地以及規(guī)模普及,率先將大模型帶入手機,也將AI PC的能力和水平提升到新的維度,持續(xù)引領(lǐng)生成式AI全面在中端落地,展現(xiàn)出驍龍平臺領(lǐng)先的AI性能。

在去年2月的MWC上,基于驍龍8Gen2,高通首次進行了離線狀態(tài)下,手機15秒內(nèi)Stable Diffusion(文生圖)演示。在2023年的驍龍峰會上,高通展示了兩個生成式AI應(yīng)用,表明了面向大語言模型和大視覺模型通用架構(gòu)的真實應(yīng)用性能。在驍龍8Gen3上,個人助手演示能夠以高達每秒20個tokens的速度運行Llama2-7B。在不損失太多精度的情況下,F(xiàn)ast Stable Diffusion能夠在0.6秒內(nèi)生成一張512*512分辨率的圖像,展現(xiàn)出在智能手機領(lǐng)域領(lǐng)先的Llama和Stable Diffusion模型指標(biāo)。

此外,高通去年還發(fā)布了專為AI PC打造的驍龍X Elite平臺,它能支持在終端側(cè)運行超過130億參數(shù)的生成式AI模型。驍龍XElite 上集成的 Hexagon NPU 算力達到 45TOPS,大幅領(lǐng)先于友商最新 X86 架構(gòu)芯片NPU 的算力數(shù)值。在面向 Windows 的 UL Procyon Al基準(zhǔn)測試中,與其他 PC 競品相比,驍龍XElite 具有領(lǐng)先的性能。例如,驍龍xElite 的基準(zhǔn)測試總分分別為x86 架構(gòu)競品A的 3.4倍和競品B的 8.6 倍。

今年MWC上,高通進行了全球首個在安卓智能手機上運行大型多模態(tài)語言模型的展示,以及高通首個在安卓手機上運行的LoRA模型,再次引領(lǐng)終端生成式AI的創(chuàng)新。在PC方面,高通在搭載全新驍龍X Elite平臺的Windows PC上,進行了全球首次運行音頻推理多模態(tài)大模型的展示。

在眾多AI行業(yè)權(quán)威基準(zhǔn)測試中,高通AI能力也均取得了領(lǐng)先的表現(xiàn)。

在生成式AI語言理解模型MobileBert上,驍龍8Gen3比競品A高17%,比競品B高321%。在魯大師IMark V4.3基準(zhǔn)測試中,驍龍8Gen3分別為競品的5.7倍和競品C的7.9倍。在安兔兔的AITuTu基準(zhǔn)測試中,總分為競品B的6.3倍。

高通AI領(lǐng)先的能力,除了優(yōu)秀的硬件支持外,讓開發(fā)者能夠獲得基于異構(gòu)計算的AI加速,縮短開發(fā)時間,實現(xiàn)對于AI用例的快速部署,對于終端AI的規(guī)模化拓展也至關(guān)重要。

通過高通AI軟件棧,高通將互補性的AI產(chǎn)品整合在統(tǒng)一的解決方案中。OEM廠商和開發(fā)者可以在高通的產(chǎn)品上創(chuàng)建,優(yōu)化和部署AI應(yīng)用,并利用高通AI引擎的性能,讓開發(fā)者一次創(chuàng)造AI模型便可以部署在不同的產(chǎn)品上。

同時,高通發(fā)布AI Hub為驍龍和高通平臺提供了超過75個優(yōu)化AI模型,助力開發(fā)者輕松為Android應(yīng)用程序添加個性化定制的終端側(cè)AI,進一步縮短開發(fā)者部署生成式AI用例的時間,推動生成式AI在端側(cè)的規(guī)模普及。

此外,在軟件方面,還專注于AI模型優(yōu)化以實現(xiàn)能效和性能的提升,包括量化、壓縮、條件計算、神經(jīng)架構(gòu)搜索(NAS)和編譯,在不犧牲準(zhǔn)確度的情況下縮小AI模型,并使其高效運行。

綜上,系統(tǒng)化的解決方案,定制化的設(shè)計思路以及快速的創(chuàng)新迭代,軟硬件層面共同的創(chuàng)新和努力,構(gòu)筑起高通在終端AI方面的護城河,形成顯著的差異化競爭力,使高通在推動生成式AI開發(fā)和應(yīng)用方面獨樹一幟,也在持續(xù)引領(lǐng)終端生成式AI的行業(yè)創(chuàng)新和技術(shù)發(fā)展方向。

智算無界,有龍則靈。

責(zé)編: 陳炳欣
來源:愛集微 #高通# #AI# #NPU# #異構(gòu)計算#
THE END

*此內(nèi)容為集微網(wǎng)原創(chuàng),著作權(quán)歸集微網(wǎng)所有,愛集微,愛原創(chuàng)

關(guān)閉
加載

PDF 加載中...

小穴抽插流水视频| 99热这里只有精品97| 国产无圣光一区福利二区| 又大黄又硬又爽免费视频| 好想大鸡巴插进阴道视频| 国产高清免费一级a久久| 久久精品国产亚洲高清| 99精品一级欧美片免费| 成人毛片一级特黄| 怎么样操女人的逼亚洲Av黄片段| 一区二区国产精品免费视频| 留学生美女被大黑屌猛戳| 日韩午夜资源在线观看| 国产精品自在自线。| 在线观看免费视频a v| 精华欧美一区二区久久久| 国产黄片在线免费看| 日本不卡高清视频在线播放| 亚洲精品成a人在线观看| 午夜福利在线观看aaa| 国产日本欧美激情| 丁香婷婷亚洲六月综合色| 日韩欧美视频在线观看不卡| 黄片大鸡吧操小逼| 99久久99久久精品视频| 美女被插入小穴爆操视频| 狠狠色伊人亚洲综合成人| 一区二区三区 日韩在线| 快日我啊好爽日我逼| 色欲精品一区二区三区AV| 色偷偷影音先锋男人av| 中文字幕在线观一二三区 | 黄色视频网在线观看| 国产亚洲一区二区手机在线观看| 操世界最美丽的逼片| 操世界最美丽的逼片| 胸大裸体美女视频| 国产妇女乱一性一交| 国产精品你懂的在线资源| 亚洲国产国产综合一区首页| 男人插女人视频软件|