AI時(shí)代為何硅光集成不容錯(cuò)過(guò)？

作者：李映 2024-07-24

來(lái)源：愛集微 #英特爾# #OCI# #臺(tái)積電# #硅光集成#

2.6w

大語(yǔ)言模型和生成性AI領(lǐng)域的進(jìn)步，正在推動(dòng)AI成為推動(dòng)全球經(jīng)濟(jì)發(fā)展和社會(huì)變革的關(guān)鍵力量。為滿足日益增長(zhǎng)的AI大模型訓(xùn)練和推理需求，可擴(kuò)展計(jì)算架構(gòu)愈發(fā)需要更大的數(shù)據(jù)I/O帶寬和更長(zhǎng)的連接距離，以支持大型xPU集群和更高效的資源利用架構(gòu)，如GPU解耦和內(nèi)存池化。

在這一情形下，英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)認(rèn)為，I/O通信需要根據(jù)傳輸距離采用不同的技術(shù)：傳統(tǒng)基于銅線連接的電學(xué)I/O的性能局限逐漸顯現(xiàn)，為實(shí)現(xiàn)高帶寬密度和低功耗，僅適用于很短的傳輸距離（小于1米）。超過(guò)100米的通信，可采用可插拔的收發(fā)器，這需要高速串行器與解串器或DSP。而在100米以內(nèi)的通信，光學(xué)I/O技術(shù)提供了遠(yuǎn)超電學(xué)I/O的帶寬、傳輸距離、高抗干擾能力和低能耗的優(yōu)勢(shì)，而且業(yè)界共識(shí)是通過(guò)硅光集成技術(shù)，將光學(xué)I/O與CPU、GPU或SoC共封，全面優(yōu)化和改善I/O帶寬密度、總能效比、延遲和成本。

著眼于AI引發(fā)第四次工業(yè)革命、硅光集成重要性凸顯的這一歷史節(jié)點(diǎn)，英特爾、臺(tái)積電、三星等均在發(fā)力硅光集成。

臺(tái)積電宣稱其正開發(fā)的三維立體光子堆疊技術(shù)COUPE，計(jì)劃在2025 年完成將COUPE技術(shù)用于小尺寸可插拔設(shè)備的技術(shù)驗(yàn)證，并于2026年推出基于CoWoS 封裝技術(shù)整合的共封裝光學(xué)模塊。三星也計(jì)劃在2027年推出一體化、CPO集成的AI解決方案，旨在為客戶提供一站式AI解決方案。三星還投資了硅光子學(xué)公司Celestial AI，目前完成了1.75億美元C輪融資。而英特爾先聲奪人，在前不久展示了一款與CPU共同封裝的硅光集成（OCI）芯粒，這一技術(shù)不僅標(biāo)志著數(shù)據(jù)中心和高性能計(jì)算(HPC)應(yīng)用中的AI基礎(chǔ)設(shè)施向前邁出了重要一步，也預(yù)示著高帶寬互連技術(shù)的新紀(jì)元。

解決重重挑戰(zhàn)

隨著AI大模型走向規(guī)模定律（Scaling Law），不僅在訓(xùn)練和推理時(shí)需要部署多個(gè)服務(wù)器機(jī)架，甚至還要跨機(jī)架連接組成服務(wù)器集群。宋繼強(qiáng)分析，無(wú)論是將模型的規(guī)模做得越大，在已有的數(shù)據(jù)集上訓(xùn)練以獲得更好的效能，還是模型保持尺寸不變，將用來(lái)做訓(xùn)練的數(shù)據(jù)規(guī)模做大提升性能，對(duì)整個(gè)計(jì)算、存儲(chǔ)以及I/O通信的要求不斷走高，需大幅提高I/O帶寬密度和互連距離，OCI成為100米以內(nèi)通信的最佳選擇。

作為開山之作，英特爾OCI芯片的核心是將硅光子集成電路（PIC）和電子集成電路（EIC）封裝于一體，作為一個(gè)完整的物理層光I/O器件，PIC包括片上密集波分復(fù)用（DWDM）激光器、光放大器（SOA）、調(diào)制器、光波分復(fù)用器和解復(fù)用器，EIC則包含xPU等。

但將光電共封絕非易事。宋繼強(qiáng)提及，將PIC的光學(xué)功能（例如光的產(chǎn)生、調(diào)制和檢測(cè)）整合到硅基板上，要解決諸多挑戰(zhàn)。

“如何將激光器集成是一大挑戰(zhàn)，必須產(chǎn)生激光和進(jìn)行光學(xué)校準(zhǔn)，這對(duì)于制造來(lái)說(shuō)是一大難題。還需要調(diào)制器等器件，通過(guò)改變穿過(guò)它們的光的強(qiáng)度或相位將電子信號(hào)轉(zhuǎn)換為光信號(hào)。在接收端光電探測(cè)器將光信號(hào)轉(zhuǎn)換回電子信號(hào)，從而完成通信回路。此外，封裝必須支持光子結(jié)構(gòu)的穩(wěn)定性，最大限度地減少可能破壞光信號(hào)完整性的任何位移或振動(dòng)，同時(shí)還要使其能夠與電子元件無(wú)縫交互。”宋繼強(qiáng)強(qiáng)調(diào)。

在解決PIC挑戰(zhàn)之外，將光學(xué)I/O芯粒集成到 CPU 或 GPU 封裝中在技術(shù)層面也要解決增加熱量管理、封裝設(shè)計(jì)和供電方面的挑戰(zhàn)。同時(shí)，在兩個(gè)獨(dú)立的芯片（硅光子集成電路和電子集成電路）上構(gòu)建光子和CMOS電路，要確?？蓴U(kuò)展性和性能優(yōu)化，而無(wú)需在單個(gè)芯片上結(jié)合兩種截然不同的技術(shù)所必需的折衷。

據(jù)悉，與電子電路相比，封裝和組裝通常只是成本的一小部分，但集成PIC的復(fù)雜性顛覆了這一比例。據(jù)研究估計(jì)，光子器件的封裝、組裝和測(cè)試成本高達(dá)模塊總成本的80%。

更棘手的是，如何保障硅光子學(xué)的大規(guī)模量產(chǎn)亦是一項(xiàng)艱巨的任務(wù)。

差異化優(yōu)勢(shì)顯著

所幸的是，在OCI領(lǐng)域英特爾攻堅(jiān)克難，推出的OCI也實(shí)現(xiàn)了新的進(jìn)階和突破。

宋繼強(qiáng)介紹，英特爾OCI支持64個(gè)通道的32G數(shù)據(jù)傳輸，可支持高達(dá)每秒4Tbps的雙向數(shù)據(jù)傳輸，延遲小于10ns（納秒級(jí)），傳輸距離可達(dá)100米。更重要的是，該技術(shù)與PCIe5.0兼容。每對(duì)光纖攜帶8個(gè)DWDM波長(zhǎng)，功耗僅為每比特5皮焦耳（pJ），即10的負(fù)12次方焦耳，這個(gè)數(shù)據(jù)比可插拔光收發(fā)器模塊的功耗降低了3倍。

可以說(shuō)，OCI不僅滿足了AI基礎(chǔ)設(shè)施對(duì)更高帶寬、更低功耗和更長(zhǎng)傳輸距離的需求，同時(shí)支持未來(lái)CPU/GPU集群連接和新型計(jì)算架構(gòu)的可擴(kuò)展性，包括一致的內(nèi)存擴(kuò)展和資源分解。

這一卓越性能也全面體出了英特爾的差異化優(yōu)勢(shì)。

“高頻率的激光器和硅光放大器實(shí)現(xiàn)了真正的晶圓級(jí)制造，而不需要將單個(gè)芯片從晶圓上切割下來(lái)單獨(dú)處理，采用普通的光纖即可傳輸。這種方法不僅簡(jiǎn)化了生產(chǎn)流程，還提高了可靠性。通過(guò)與EIC的封裝集成，未來(lái)會(huì)進(jìn)一步提升良率降低成本，走向規(guī)模化。”宋繼強(qiáng)分享道，“業(yè)界有些在采用外部激光器的方案，還需要專門的保證偏振光特性不變的光纖，帶來(lái)高成本以及沒有規(guī)?；渴鸢咐奶魬?zhàn)。”

面向量產(chǎn)挑戰(zhàn)，值得一提的是英特爾的OCI芯粒是基于內(nèi)部經(jīng)過(guò)量產(chǎn)驗(yàn)證的硅光子集成平臺(tái)打造而成，該平臺(tái)自2015年以來(lái)為超大規(guī)模數(shù)據(jù)中心內(nèi)的連接應(yīng)用交付了超過(guò)800萬(wàn)個(gè)光收發(fā)器模塊，在性能、成本、可靠性和制造能力方面具有明顯的差異化優(yōu)勢(shì)。

英特爾已成功證明其擁有一個(gè)成熟的、經(jīng)過(guò)量產(chǎn)驗(yàn)證的硅光子平臺(tái)，其可靠性已在數(shù)百萬(wàn)個(gè)器件上得到驗(yàn)證，數(shù)據(jù)顯示時(shí)基故障率小于0.1。

對(duì)于制程走向，宋繼強(qiáng)分析，PIC通常追求小型化，但首要是保證達(dá)到足夠的效率，采用的制程會(huì)比EIC要更成熟一些，EIC則相對(duì)要求先進(jìn)的節(jié)點(diǎn)，同時(shí)要充分考慮到未來(lái)可擴(kuò)展性的需求。因而，英特爾采用在主機(jī)xPU與I/O之間使用電氣接口，這些接口已通過(guò)健全的IP生態(tài)系統(tǒng)實(shí)現(xiàn)標(biāo)準(zhǔn)化，例如 UCIe、PCIe、以太網(wǎng)等。

新興技術(shù)助推

在成功完成了OCI首秀之后，英特爾也在優(yōu)化的路上持續(xù)精進(jìn)。

對(duì)此宋繼強(qiáng)總結(jié)道，英特爾正在投入研發(fā)新的硅光子制造工藝節(jié)點(diǎn)，該節(jié)點(diǎn)將實(shí)現(xiàn)領(lǐng)先的器件性能提升、更高的密度和更好的耦合性，預(yù)計(jì)能將芯片面積減少40%以上，并大幅提高經(jīng)濟(jì)效益。英特爾還將繼續(xù)改善片上激光器和光收發(fā)器的性能、成本和可靠性。英特爾制定了積極的路線圖，通過(guò)提高線速率、每條光纖的波長(zhǎng)數(shù)、光纖數(shù)量和偏振模式，擴(kuò)展未來(lái)OCI芯粒的性能，后續(xù)產(chǎn)品預(yù)計(jì)將支持高達(dá)32 Tbps的數(shù)據(jù)傳輸速率的同時(shí)，還致力于將能效降低到每比特3.5皮焦耳以下。

還要看到的是，圍繞OCI代工三大巨頭的火力比拼正在全面展開，而先進(jìn)封裝和先進(jìn)材料的采用和進(jìn)階也成為決定勝負(fù)的新籌碼。

對(duì)于PIC和EIC的集成技術(shù)，宋繼強(qiáng)指出，目前 PIC和EIC 集成如同一個(gè)Die，在晶圓級(jí)就完成了集成，不涉及2.5D的關(guān)系。未來(lái)為實(shí)現(xiàn)新的擴(kuò)展，可采用EMIB、Foveros Direct等先進(jìn)封裝，也可采用RDL，重要是滿足所需的帶寬和密度。

隨著玻璃基板成為替代有機(jī)基板的新一代技術(shù)，業(yè)界共識(shí)是基于玻璃基板的光子集成系統(tǒng)是解決帶寬增大、通道數(shù)變多的核心技術(shù)。Yole分析認(rèn)為，隨著玻璃基板技術(shù)的成熟和供應(yīng)鏈的發(fā)展，玻璃基板有望重新定義先進(jìn)封裝的格局。

目前，臺(tái)積電已成立玻璃基板技術(shù)團(tuán)隊(duì)，在積極布局硅光子領(lǐng)域，或?qū)?shí)現(xiàn)硅與光電的跨界整合。三星也親自下場(chǎng)開發(fā)玻璃基板，在OCI方案中或?qū)⑦M(jìn)行TGV作為中介層的戰(zhàn)術(shù)部署。

對(duì)于玻璃基板在英特爾OCI中的應(yīng)用，宋繼強(qiáng)也提及，因?yàn)椴ＡЩ鍖?dǎo)光度強(qiáng)，硅光與玻璃基板集成可助力實(shí)現(xiàn)更好的光波導(dǎo)，英特爾在這一領(lǐng)域也在深入布局。

全面而言，硅光集成不僅是AI時(shí)代高帶寬傳輸領(lǐng)域的一大重要進(jìn)展，亦有望徹底改變AI基礎(chǔ)設(shè)施和連接方式。伴隨著OCI技術(shù)的不斷發(fā)展，也將持續(xù)在高性能計(jì)算、云計(jì)算和邊緣計(jì)算領(lǐng)域書寫計(jì)算行業(yè)的新篇章。