亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

大模型應(yīng)用落地加速,如何優(yōu)化芯片算力?

來源:愛集微 #AI# #至強(qiáng)6# #英特爾#
2993

隨著技術(shù)成熟度的提升和生態(tài)體系的完善,大模型的應(yīng)用邊界正不斷拓展,從最初的文本生成、圖像識(shí)別等單一任務(wù),向跨模態(tài)理解、復(fù)雜系統(tǒng)控制等更高階能力演進(jìn)。這不僅要求模型足夠好(準(zhǔn)確幻覺低),同時(shí)也要求成本低,多模態(tài),強(qiáng)推理,如此才能支持大規(guī)模應(yīng)用上量。這必然對(duì)基礎(chǔ)硬件提出更高要求。在近日舉辦的火山引擎2025 FORCE原動(dòng)力大會(huì)英特爾專場(chǎng)分論壇上,嘉賓重點(diǎn)討論了如何針對(duì)不同應(yīng)用場(chǎng)景采取的優(yōu)化策略;如何提供更優(yōu)性價(jià)比的推理算力解決方案;如何實(shí)現(xiàn)云端算力的升級(jí)等優(yōu)化芯片算力的熱點(diǎn)話題。

打造更高性價(jià)比的智算一體機(jī)方案

當(dāng)前人工智能行業(yè)的發(fā)展背景呈現(xiàn)出技術(shù)普惠化與產(chǎn)業(yè)落地加速的雙重特征,以DeepSeek、Meta的Llama等為代表的開源大模型,通過公開代碼、權(quán)重和訓(xùn)練數(shù)據(jù),大幅降低了中小企業(yè)和開發(fā)者的技術(shù)門檻。同時(shí)輕量化的小模型也在崛起。由于大規(guī)模模型訓(xùn)練成本高昂,投入更小、更垂直的小模型不斷涌現(xiàn)。例如,DeepSeek的輕量化版本在保持高性能的同時(shí),顯著降低了計(jì)算資源需求,吸引了大量中小企業(yè)的關(guān)注。大模型一體機(jī)集成了硬件算力、軟件平臺(tái)和預(yù)訓(xùn)練模型,簡化了部署流程,降低了企業(yè)的技術(shù)門檻,掀起一輪市場(chǎng)熱潮。據(jù)億歐智庫預(yù)測(cè),中國大模型一體機(jī)市場(chǎng)正開啟千億級(jí)增長空間。

英特爾中國解決方案部 人工智能方案總監(jiān)高豐介紹,基于Computex2025上最新推出的銳炫 Pro B60 GPU,英特爾也在積極推動(dòng)智算一體機(jī)的開發(fā)。整體方案既支持 7B-72B 等主流模型,也能支持 Deepseek V3/R1 671B 本地部署,還提供了完善的主流生態(tài)軟件棧和封裝成服務(wù)化的EAP,可讓上層應(yīng)用平滑遷移到Xeon+Arc平臺(tái)上,加速企業(yè)內(nèi)部和邊緣側(cè) LLM 應(yīng)用落地。

銳炫Pro B60顯存從16GB升級(jí)到24GB,顯著增強(qiáng)了其在處理復(fù)雜人工智能任務(wù)與高負(fù)載專業(yè)應(yīng)用場(chǎng)景中的性能表現(xiàn),尤其在支持更強(qiáng)的上下文擴(kuò)展和并發(fā)擴(kuò)展能力方面實(shí)現(xiàn)了較大幅度的提升。在生成式AI任務(wù)中,顯存容量直接決定了模型可處理的上下文窗口長度;在并發(fā)擴(kuò)展方面,24GB顯存允許同時(shí)加載多個(gè)中小型模型或單個(gè)大型模型的不同實(shí)例;在云計(jì)算場(chǎng)景中,顯存擴(kuò)容使得單張顯卡可支持更多虛擬實(shí)例,降低硬件成本的同時(shí)提升服務(wù)密度,滿足AI訓(xùn)練平臺(tái)、邊緣計(jì)算節(jié)點(diǎn)等場(chǎng)景的彈性需求。

除硬件之外,英特爾在軟件生態(tài)方面也做了許多工作,提供了包括vLLM、PyTorch在內(nèi)的完善的主流生態(tài)軟件棧。這些軟件棧是AI開發(fā)和應(yīng)用中常用的工具和框架,能夠幫助開發(fā)者更高效地進(jìn)行模型開發(fā)、訓(xùn)練和推理。通過將這些軟件棧集成到EAP中,英特爾為企業(yè)用戶提供了一站式的AI開發(fā)環(huán)境,降低了技術(shù)門檻和開發(fā)成本。

高豐最后強(qiáng)調(diào),對(duì)于一體機(jī)解決方案,高性價(jià)比很有必要。首先硬件平臺(tái)需要具備足夠高的性價(jià)比和強(qiáng)大的性能。其次許多企業(yè)為了追求更高的性價(jià)比,會(huì)考慮能否利用開源模型來滿足足夠好(Good enough)的應(yīng)用場(chǎng)景。

至強(qiáng)6滿足云端算力升級(jí)

英特爾中國數(shù)據(jù)中心事業(yè)部產(chǎn)品戰(zhàn)略規(guī)劃總監(jiān)張志杰表示,數(shù)據(jù)中心需求在不斷演變,不同的應(yīng)用場(chǎng)景需要不同的優(yōu)化策略。在人工智能方面,利用加速硬件和基于開放標(biāo)準(zhǔn)的軟件,實(shí)現(xiàn)大規(guī)模出色性能;在吞吐量和時(shí)延方面,以更快的響應(yīng)速度顯著提升系統(tǒng)級(jí)性能;在大規(guī)模部署中提供更高安全性、質(zhì)量和可靠性;提升機(jī)架密度,同時(shí)滿足能效要求,以降低總體擁有成本 (TCO),通過優(yōu)化能效和產(chǎn)品循環(huán)設(shè)計(jì),減少碳排放;通過指令集架構(gòu) (ISA) 一致性,實(shí)現(xiàn)軟件生態(tài)系統(tǒng)兼容性。

針對(duì)上述需求,張志杰介紹了去年發(fā)布的至強(qiáng)6處理器,可以滿足數(shù)據(jù)中心新提出的需求和挑戰(zhàn)。為了使至強(qiáng)6處理器更易使用,英特爾從架構(gòu)上采用了模塊化的解耦方式,將I/O die和計(jì)算die進(jìn)行分離。英特爾提出能效核和性能核上對(duì)于I/O die的使用是完全可復(fù)用的,使得不僅是英特爾,包括所有的生態(tài)合作伙伴、客戶,在驗(yàn)證過程中節(jié)省了大量資源。同時(shí)對(duì)計(jì)算die也進(jìn)行了模塊化處理,以滿足在高核心數(shù)到低核心數(shù)整個(gè)擴(kuò)展過程當(dāng)中的需求。同時(shí)英特爾的產(chǎn)品在整個(gè)BIOS框架(Framework)上也形成了一整套體系,以適配能效核和性能核的變化。

至強(qiáng)6處理器從計(jì)算上可以提供高達(dá)288個(gè)物理核,在內(nèi)存子系統(tǒng)上,相對(duì)于上一代,它的內(nèi)存帶寬提升了1.7倍。這主要得益于通道數(shù)從8通道提升到12通道,以及DDR5從5600到6400的提升。如果采用MRDIMM甚至可使整個(gè)帶寬再提升30%,達(dá)到2.3倍的提升。至強(qiáng)6處理器是整個(gè)行業(yè)里第一代支持MRDIMM的平臺(tái)。在大帶寬的需求上,比如推廣搜、AI等領(lǐng)域可以看到非常強(qiáng)烈的對(duì)于MRDIMM內(nèi)存的需求。

從I/O的角度,PCIe提升了1.2倍。整個(gè)跨插槽的帶寬提升了1.8倍,并將CXL 2.0應(yīng)用在了至強(qiáng)6處理器上。在加速器方面,至強(qiáng)6處理器內(nèi)置了4個(gè)QAT加速器,能夠幫助卸載(offload)到24-32個(gè)CPU核心的計(jì)算能力。AMX作為集成在CPU內(nèi)部的AI加速器,可以使CPU處理AI能力大幅提升。

在性能上,無論通用計(jì)算、Web service還是AI等領(lǐng)域,至強(qiáng)6的6900系列CPU總體提升高達(dá)2倍以上的性能,同時(shí)提高了1.4倍的性能功耗比改善。

基于異構(gòu)計(jì)算優(yōu)化大模型推理

英特爾中國數(shù)據(jù)中心事業(yè)部 高級(jí)軟件工程師繆金成指出,大語言模型的出現(xiàn),為現(xiàn)在主要的計(jì)算設(shè)備,尤其是CPU、GPU帶來了多種多樣的挑戰(zhàn),包括GPU 計(jì)算效率低、CPU 利用率低、更高的數(shù)據(jù)移動(dòng)帶寬需求、GPU 顯存容量限制等。大語言模型的特性分成兩個(gè)階段,分別為prefill階段和decoding階段,不同階段有不同的特性。在prefill階段主要表現(xiàn)為計(jì)算瓶頸;生成詞的階段則是緩存帶寬出現(xiàn)瓶頸。在生成詞的過程當(dāng)中,其實(shí)常規(guī)的計(jì)算設(shè)備并不能把峰值算力完全發(fā)揮出來,因此生成詞階段計(jì)算效率并不是很高。

除此之外,部署在數(shù)據(jù)中心中的AI服務(wù)器很多CPU的利用率有限,這也是當(dāng)前主要挑戰(zhàn)之一。同時(shí),大語言模型隨著訓(xùn)練參數(shù)量越來越大,模型規(guī)模以及權(quán)重都需要消耗更多帶寬,對(duì)數(shù)據(jù)傳輸帶寬的要求也越高。越來越大的權(quán)重和模型相應(yīng)的存儲(chǔ)磁盤或者是存儲(chǔ)介質(zhì)的容量也要求越來越大。然而,現(xiàn)有的GPU顯存在匹配大語言模型參數(shù)規(guī)模方面存在一定瓶頸。

為了應(yīng)對(duì)上述挑戰(zhàn),英特爾設(shè)計(jì)了多種基于異構(gòu)解決方案。針對(duì)AI服務(wù)器中CPU設(shè)備利用率不高的問題,我們觀察到在stable diffusion的微調(diào)任務(wù)中,CPU的空閑的時(shí)間占總時(shí)間的97%,無法把CPU的計(jì)算能力充分發(fā)揮出來。因此,我們?cè)谶@種數(shù)據(jù)的預(yù)處理或者是流水線主動(dòng)去引入CPU的設(shè)備,輔助整個(gè)流水線的高效運(yùn)行。

以MosaicML舉例,其在訓(xùn)練SD2模型時(shí),CLIP和VAE是離線預(yù)計(jì)算好的,在訓(xùn)練當(dāng)中加載。因此SD2的訓(xùn)練過程可以被分為兩個(gè)階段:一是需要預(yù)計(jì)算latent的離線階段,另外一個(gè)是離線訓(xùn)練的節(jié)點(diǎn)。現(xiàn)在CPU的算力已經(jīng)能夠覆蓋一定的模型運(yùn)行,尤其是預(yù)計(jì)算任務(wù)。將CPU引入到latent預(yù)計(jì)算的過程當(dāng)中,可以把原來的預(yù)計(jì)算部分分為兩部分,讓CPU和GPU并行起來,也可以節(jié)省更多更寶貴的GPU時(shí)間,讓整個(gè)訓(xùn)練的性價(jià)比進(jìn)一步提升。經(jīng)評(píng)估,采用這種異構(gòu)方案優(yōu)化整個(gè)數(shù)據(jù)預(yù)處理的流水線,相比傳統(tǒng)未優(yōu)化的方案,整體性價(jià)比可以提升10%。

投機(jī)執(zhí)行也是針對(duì)上述挑戰(zhàn)開發(fā)的技術(shù)之一。投機(jī)執(zhí)行這項(xiàng)技術(shù)的靈感來自CPU的設(shè)計(jì)。其主要思路是用計(jì)算換取時(shí)間,以早期的計(jì)算過程去預(yù)測(cè)下一步的執(zhí)行階段。在大語言當(dāng)中也有同樣思想的投機(jī)執(zhí)行的優(yōu)化。業(yè)界普遍認(rèn)為,由于大模型預(yù)測(cè)下一個(gè)詞的計(jì)算成本較高,于是采用小模型先預(yù)測(cè),把預(yù)測(cè)出來的詞再交給大模型去驗(yàn)證,如果驗(yàn)證成功就會(huì)被采用。

最新的至強(qiáng)6性能核處理器具備多項(xiàng)新特性,能充分優(yōu)化小模型。利用CPU在投機(jī)執(zhí)行時(shí)運(yùn)行小模型,可以更好地將GPU的處理時(shí)間和容量釋放出來,進(jìn)而讓整個(gè)投機(jī)執(zhí)行在數(shù)據(jù)中心中的部署更加高效。

針對(duì)KV Cache也有很多異構(gòu)方案。KV Cache是大語言模型在生成詞階段非常重要的組件,尤其是當(dāng)大規(guī)模的部署提出了Prefill 和Decode 分離的方式,將大語言模型的首詞和下一個(gè)詞分別部署在不同型號(hào)、不同規(guī)格的數(shù)據(jù)集群當(dāng)中,能夠進(jìn)一步提升整體系統(tǒng)的吞吐能力。

責(zé)編: 張軼群
來源:愛集微 #AI# #至強(qiáng)6# #英特爾#
THE END

*此內(nèi)容為集微網(wǎng)原創(chuàng),著作權(quán)歸集微網(wǎng)所有,愛集微,愛原創(chuàng)

關(guān)閉
加載

PDF 加載中...