大語(yǔ)言模型和生成性AI領(lǐng)域的進(jìn)步,正在推動(dòng)AI成為推動(dòng)全球經(jīng)濟(jì)發(fā)展和社會(huì)變革的關(guān)鍵力量。為滿足日益增長(zhǎng)的AI大模型訓(xùn)練和推理需求,可擴(kuò)展計(jì)算架構(gòu)愈發(fā)需要更大的數(shù)據(jù)I/O帶寬和更長(zhǎng)的連接距離,以支持大型xPU集群和更高效的資源利用架構(gòu),如GPU解耦和內(nèi)存池化。
在這一情形下,英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)認(rèn)為,I/O通信需要根據(jù)傳輸距離采用不同的技術(shù):傳統(tǒng)基于銅線連接的電學(xué)I/O的性能局限逐漸顯現(xiàn),為實(shí)現(xiàn)高帶寬密度和低功耗,僅適用于很短的傳輸距離(小于1米)。超過(guò)100米的通信,可采用可插拔的收發(fā)器,這需要高速串行器與解串器或DSP。而在100米以內(nèi)的通信,光學(xué)I/O技術(shù)提供了遠(yuǎn)超電學(xué)I/O的帶寬、傳輸距離、高抗干擾能力和低能耗的優(yōu)勢(shì),而且業(yè)界共識(shí)是通過(guò)硅光集成技術(shù),將光學(xué)I/O與CPU、GPU或SoC共封,全面優(yōu)化和改善I/O帶寬密度、總能效比、延遲和成本。
著眼于AI引發(fā)第四次工業(yè)革命、硅光集成重要性凸顯的這一歷史節(jié)點(diǎn),英特爾、臺(tái)積電、三星等均在發(fā)力硅光集成。
臺(tái)積電宣稱其正開發(fā)的三維立體光子堆疊技術(shù)COUPE,計(jì)劃在2025 年完成將COUPE技術(shù)用于小尺寸可插拔設(shè)備的技術(shù)驗(yàn)證,并于2026年推出基于CoWoS 封裝技術(shù)整合的共封裝光學(xué)模塊。三星也計(jì)劃在2027年推出一體化、CPO集成的AI解決方案,旨在為客戶提供一站式AI解決方案。三星還投資了硅光子學(xué)公司Celestial AI,目前完成了1.75億美元C輪融資。而英特爾先聲奪人,在前不久展示了一款與CPU共同封裝的硅光集成(OCI)芯粒,這一技術(shù)不僅標(biāo)志著數(shù)據(jù)中心和高性能計(jì)算(HPC)應(yīng)用中的AI基礎(chǔ)設(shè)施向前邁出了重要一步,也預(yù)示著高帶寬互連技術(shù)的新紀(jì)元。
解決重重挑戰(zhàn)
隨著AI大模型走向規(guī)模定律(Scaling Law),不僅在訓(xùn)練和推理時(shí)需要部署多個(gè)服務(wù)器機(jī)架,甚至還要跨機(jī)架連接組成服務(wù)器集群。宋繼強(qiáng)分析,無(wú)論是將模型的規(guī)模做得越大,在已有的數(shù)據(jù)集上訓(xùn)練以獲得更好的效能,還是模型保持尺寸不變,將用來(lái)做訓(xùn)練的數(shù)據(jù)規(guī)模做大提升性能,對(duì)整個(gè)計(jì)算、存儲(chǔ)以及I/O通信的要求不斷走高,需大幅提高I/O帶寬密度和互連距離,OCI成為100米以內(nèi)通信的最佳選擇。
作為開山之作,英特爾OCI芯片的核心是將硅光子集成電路(PIC)和電子集成電路(EIC)封裝于一體,作為一個(gè)完整的物理層光I/O器件,PIC包括片上密集波分復(fù)用(DWDM)激光器、光放大器(SOA)、調(diào)制器、光波分復(fù)用器和解復(fù)用器,EIC則包含xPU等。
但將光電共封絕非易事。宋繼強(qiáng)提及,將PIC的光學(xué)功能(例如光的產(chǎn)生、調(diào)制和檢測(cè))整合到硅基板上,要解決諸多挑戰(zhàn)。
“如何將激光器集成是一大挑戰(zhàn),必須產(chǎn)生激光和進(jìn)行光學(xué)校準(zhǔn),這對(duì)于制造來(lái)說(shuō)是一大難題。還需要調(diào)制器等器件,通過(guò)改變穿過(guò)它們的光的強(qiáng)度或相位將電子信號(hào)轉(zhuǎn)換為光信號(hào)。在接收端光電探測(cè)器將光信號(hào)轉(zhuǎn)換回電子信號(hào),從而完成通信回路。此外,封裝必須支持光子結(jié)構(gòu)的穩(wěn)定性,最大限度地減少可能破壞光信號(hào)完整性的任何位移或振動(dòng),同時(shí)還要使其能夠與電子元件無(wú)縫交互。”宋繼強(qiáng)強(qiáng)調(diào)。
在解決PIC挑戰(zhàn)之外,將光學(xué)I/O芯粒集成到 CPU 或 GPU 封裝中在技術(shù)層面也要解決增加熱量管理、封裝設(shè)計(jì)和供電方面的挑戰(zhàn)。同時(shí),在兩個(gè)獨(dú)立的芯片(硅光子集成電路和電子集成電路)上構(gòu)建光子和CMOS電路,要確??蓴U(kuò)展性和性能優(yōu)化,而無(wú)需在單個(gè)芯片上結(jié)合兩種截然不同的技術(shù)所必需的折衷。
據(jù)悉,與電子電路相比,封裝和組裝通常只是成本的一小部分,但集成PIC的復(fù)雜性顛覆了這一比例。據(jù)研究估計(jì),光子器件的封裝、組裝和測(cè)試成本高達(dá)模塊總成本的80%。
更棘手的是,如何保障硅光子學(xué)的大規(guī)模量產(chǎn)亦是一項(xiàng)艱巨的任務(wù)。
差異化優(yōu)勢(shì)顯著
所幸的是,在OCI領(lǐng)域英特爾攻堅(jiān)克難,推出的OCI也實(shí)現(xiàn)了新的進(jìn)階和突破。
宋繼強(qiáng)介紹,英特爾OCI支持64個(gè)通道的32G數(shù)據(jù)傳輸,可支持高達(dá)每秒4Tbps的雙向數(shù)據(jù)傳輸,延遲小于10ns(納秒級(jí)),傳輸距離可達(dá)100米。更重要的是,該技術(shù)與PCIe5.0兼容。每對(duì)光纖攜帶8個(gè)DWDM波長(zhǎng),功耗僅為每比特5皮焦耳(pJ),即10的負(fù)12次方焦耳,這個(gè)數(shù)據(jù)比可插拔光收發(fā)器模塊的功耗降低了3倍。
可以說(shuō),OCI不僅滿足了AI基礎(chǔ)設(shè)施對(duì)更高帶寬、更低功耗和更長(zhǎng)傳輸距離的需求,同時(shí)支持未來(lái)CPU/GPU集群連接和新型計(jì)算架構(gòu)的可擴(kuò)展性,包括一致的內(nèi)存擴(kuò)展和資源分解。
這一卓越性能也全面體出了英特爾的差異化優(yōu)勢(shì)。
“高頻率的激光器和硅光放大器實(shí)現(xiàn)了真正的晶圓級(jí)制造,而不需要將單個(gè)芯片從晶圓上切割下來(lái)單獨(dú)處理,采用普通的光纖即可傳輸。這種方法不僅簡(jiǎn)化了生產(chǎn)流程,還提高了可靠性。通過(guò)與EIC的封裝集成,未來(lái)會(huì)進(jìn)一步提升良率降低成本,走向規(guī)模化。”宋繼強(qiáng)分享道,“業(yè)界有些在采用外部激光器的方案,還需要專門的保證偏振光特性不變的光纖,帶來(lái)高成本以及沒有規(guī)?;渴鸢咐奶魬?zhàn)。”
面向量產(chǎn)挑戰(zhàn),值得一提的是英特爾的OCI芯粒是基于內(nèi)部經(jīng)過(guò)量產(chǎn)驗(yàn)證的硅光子集成平臺(tái)打造而成,該平臺(tái)自2015年以來(lái)為超大規(guī)模數(shù)據(jù)中心內(nèi)的連接應(yīng)用交付了超過(guò)800萬(wàn)個(gè)光收發(fā)器模塊,在性能、成本、可靠性和制造能力方面具有明顯的差異化優(yōu)勢(shì)。
英特爾已成功證明其擁有一個(gè)成熟的、經(jīng)過(guò)量產(chǎn)驗(yàn)證的硅光子平臺(tái),其可靠性已在數(shù)百萬(wàn)個(gè)器件上得到驗(yàn)證,數(shù)據(jù)顯示時(shí)基故障率小于0.1。
對(duì)于制程走向,宋繼強(qiáng)分析,PIC通常追求小型化,但首要是保證達(dá)到足夠的效率,采用的制程會(huì)比EIC要更成熟一些,EIC則相對(duì)要求先進(jìn)的節(jié)點(diǎn),同時(shí)要充分考慮到未來(lái)可擴(kuò)展性的需求。因而,英特爾采用在主機(jī)xPU與I/O之間使用電氣接口,這些接口已通過(guò)健全的IP生態(tài)系統(tǒng)實(shí)現(xiàn)標(biāo)準(zhǔn)化,例如 UCIe、PCIe、以太網(wǎng)等。
新興技術(shù)助推
在成功完成了OCI首秀之后,英特爾也在優(yōu)化的路上持續(xù)精進(jìn)。
對(duì)此宋繼強(qiáng)總結(jié)道,英特爾正在投入研發(fā)新的硅光子制造工藝節(jié)點(diǎn),該節(jié)點(diǎn)將實(shí)現(xiàn)領(lǐng)先的器件性能提升、更高的密度和更好的耦合性,預(yù)計(jì)能將芯片面積減少40%以上,并大幅提高經(jīng)濟(jì)效益。英特爾還將繼續(xù)改善片上激光器和光收發(fā)器的性能、成本和可靠性。英特爾制定了積極的路線圖,通過(guò)提高線速率、每條光纖的波長(zhǎng)數(shù)、光纖數(shù)量和偏振模式,擴(kuò)展未來(lái)OCI芯粒的性能,后續(xù)產(chǎn)品預(yù)計(jì)將支持高達(dá)32 Tbps的數(shù)據(jù)傳輸速率的同時(shí),還致力于將能效降低到每比特3.5皮焦耳以下。
還要看到的是,圍繞OCI代工三大巨頭的火力比拼正在全面展開,而先進(jìn)封裝和先進(jìn)材料的采用和進(jìn)階也成為決定勝負(fù)的新籌碼。
對(duì)于PIC和EIC的集成技術(shù),宋繼強(qiáng)指出,目前 PIC和EIC 集成如同一個(gè)Die,在晶圓級(jí)就完成了集成,不涉及2.5D的關(guān)系。未來(lái)為實(shí)現(xiàn)新的擴(kuò)展,可采用EMIB、Foveros Direct等先進(jìn)封裝,也可采用RDL,重要是滿足所需的帶寬和密度。
隨著玻璃基板成為替代有機(jī)基板的新一代技術(shù),業(yè)界共識(shí)是基于玻璃基板的光子集成系統(tǒng)是解決帶寬增大、通道數(shù)變多的核心技術(shù)。Yole分析認(rèn)為,隨著玻璃基板技術(shù)的成熟和供應(yīng)鏈的發(fā)展,玻璃基板有望重新定義先進(jìn)封裝的格局。
目前,臺(tái)積電已成立玻璃基板技術(shù)團(tuán)隊(duì),在積極布局硅光子領(lǐng)域,或?qū)?shí)現(xiàn)硅與光電的跨界整合。三星也親自下場(chǎng)開發(fā)玻璃基板,在OCI方案中或?qū)⑦M(jìn)行TGV作為中介層的戰(zhàn)術(shù)部署。
對(duì)于玻璃基板在英特爾OCI中的應(yīng)用,宋繼強(qiáng)也提及,因?yàn)椴AЩ鍖?dǎo)光度強(qiáng),硅光與玻璃基板集成可助力實(shí)現(xiàn)更好的光波導(dǎo),英特爾在這一領(lǐng)域也在深入布局。
全面而言,硅光集成不僅是AI時(shí)代高帶寬傳輸領(lǐng)域的一大重要進(jìn)展,亦有望徹底改變AI基礎(chǔ)設(shè)施和連接方式。伴隨著OCI技術(shù)的不斷發(fā)展,也將持續(xù)在高性能計(jì)算、云計(jì)算和邊緣計(jì)算領(lǐng)域書寫計(jì)算行業(yè)的新篇章。