在智猩猩聯(lián)合主辦的2025中國(guó)AI算力大會(huì)同期進(jìn)行的「超節(jié)點(diǎn)技術(shù)研討會(huì)」上,曦智科技聯(lián)合創(chuàng)始人兼首席技術(shù)官孟懷宇博士圍繞《光互連、光交換:解鎖超節(jié)點(diǎn)規(guī)模上限》發(fā)表了主題報(bào)告。
孟懷宇博士指出,超節(jié)點(diǎn)技術(shù)在大模型的訓(xùn)練與推理過程中發(fā)揮著至關(guān)重要的作用。其理想架構(gòu)為單層拓?fù)?,這能夠顯著降低延遲與成本。然而,由于國(guó)產(chǎn)芯片制程的限制,往往需要集成數(shù)百塊國(guó)產(chǎn)GPU才能與海外產(chǎn)品相當(dāng)。
在這種情況下,孟懷宇博士認(rèn)為,擴(kuò)大超節(jié)點(diǎn)規(guī)模主要有兩條路徑:一是提升單機(jī)柜的功耗,二是增加機(jī)柜的數(shù)量。而跨機(jī)柜互連必然要依賴光技術(shù)。
針對(duì)光互連大規(guī)模應(yīng)用所面臨的功耗、成本以及可靠性挑戰(zhàn),孟懷宇博士認(rèn)為高集成光學(xué)方案是破局的關(guān)鍵。通過采用共封裝光學(xué)(CPO)技術(shù),將光電轉(zhuǎn)換集成至芯片附近,可將功耗降低 1/3 至 2/3,同時(shí)也減少了分立器件的數(shù)量,從而提升了可靠性。
最后,孟懷宇博士還分享了曦智科技的分布式光交換(dOCS)技術(shù)。dOCS在光I/O層嵌入交換功能,實(shí)現(xiàn)了兩大價(jià)值:一是動(dòng)態(tài)冗余,在故障發(fā)生時(shí),能夠以服務(wù)器為單位切換拓?fù)?,從而降低備份成本;二是靈活伸縮超節(jié)點(diǎn)規(guī)模,可根據(jù)不同模型的算力需求進(jìn)行適配。最終,曦智科技希望構(gòu)建一個(gè)融合光電計(jì)算、光互連與光交換的高效集群。
本文為孟懷宇博士的報(bào)告實(shí)錄,有一定刪減。
超節(jié)點(diǎn)本身的價(jià)值我覺得不需要過多的說,今天前面各位專家已經(jīng)也談到了很多,主要是在大模型訓(xùn)練和推理兩個(gè)層面。
在訓(xùn)練層面,我們看到模型的尺寸自從GPT-3出來以后迅速發(fā)展,訓(xùn)練所需要的GPU數(shù)量也指數(shù)級(jí)增長(zhǎng)。超節(jié)點(diǎn)可以極大地提高訓(xùn)練的效率,尤其是對(duì)比較大的模型。
推理可能是2025年以來在國(guó)內(nèi)市場(chǎng)更受關(guān)注的一個(gè)應(yīng)用場(chǎng)景。
上面這張圖是黃仁勛在25年上半年GTC上展示的一個(gè)圖片的簡(jiǎn)化版本,意思是說大模型的推理可以按照橫軸和縱軸分成兩個(gè)部分。橫軸是單個(gè)用戶輸出token的速度,可以把它翻譯成用戶體驗(yàn),從某種意義上也可以把它翻譯成價(jià)格。而縱軸是每張卡可以輸出的模型數(shù)量,從經(jīng)濟(jì)學(xué)的邏輯來說可以把它翻譯成產(chǎn)量。那么價(jià)格乘以產(chǎn)量就是總的產(chǎn)值。
因此我們?cè)谶@張圖片上面選一個(gè)運(yùn)營(yíng)點(diǎn)的時(shí)候,它所囊括的那個(gè)方塊,就意味著這個(gè)狀態(tài)下系統(tǒng)可以產(chǎn)生的價(jià)值。黃仁勛在GTC上想要展示的,是他們的Blackwell NVL72超節(jié)點(diǎn)從產(chǎn)生價(jià)值的角度來講遠(yuǎn)遠(yuǎn)高于之前的8卡集群。
01 超節(jié)點(diǎn)架構(gòu)應(yīng)往單層發(fā)展
超節(jié)點(diǎn)的架構(gòu)我們看到有單層超節(jié)點(diǎn)和兩層超節(jié)點(diǎn)兩個(gè)邏輯,這個(gè)概念也很清楚,就是超節(jié)點(diǎn)的計(jì)算卡需要多少層交換機(jī)才能夠組成一個(gè)整體。
從算法的應(yīng)用上來講,尤其是超節(jié)點(diǎn)的推理來說,我們希望它整體延遲更低、成本更低、可靠性更好。由此推得,超節(jié)點(diǎn)最好是只有一層。但是現(xiàn)實(shí)中我們可能沒有足夠大的交換機(jī),沒有足夠大的高效互連,使得在某些情況下沒辦法把超節(jié)點(diǎn)做成一層架構(gòu)。也有超節(jié)點(diǎn)是用兩層的架構(gòu),但是我們覺得這應(yīng)該是暫時(shí)的一個(gè)妥協(xié)方案,最終超節(jié)點(diǎn)架構(gòu)應(yīng)該往單層方向發(fā)展。
剛才說了,超節(jié)點(diǎn)我們希望是單層,這是一個(gè)點(diǎn)。第二個(gè)點(diǎn),在國(guó)產(chǎn)生態(tài)中,單卡單芯片算力是嚴(yán)重受限的,基本上直接被制程所限制。那么,當(dāng)國(guó)產(chǎn)芯片制程可能一段時(shí)間內(nèi)停留在7納米水平的時(shí)候,我們的單芯片的算力、帶寬、顯存容量、顯存帶寬,比現(xiàn)在主流的NVL72用的B200芯片,基本上是2倍、4倍甚至7倍的差距。
如果人家一個(gè)超節(jié)點(diǎn)NVL72有72個(gè)B200芯片,咱們假設(shè)使用7nm國(guó)產(chǎn)GPU,大概也就是A100的水平,基本上就是幾百張卡。
剛才提到我們希望超節(jié)點(diǎn)是一層的,然后又希望國(guó)產(chǎn)超節(jié)點(diǎn)要對(duì)標(biāo)海外的的超節(jié)點(diǎn),這樣就得到我們需要幾百個(gè)國(guó)產(chǎn)GPU連成一層的超節(jié)點(diǎn),我們要怎么實(shí)現(xiàn)呢?
02 單層超節(jié)點(diǎn)擴(kuò)大規(guī)模主流路徑
我們覺得現(xiàn)在的起點(diǎn)和將來的終點(diǎn),應(yīng)該都是大家比較認(rèn)可的。短期內(nèi)盡量往單個(gè)機(jī)柜塞,單機(jī)柜的功耗上限有多少就塞多少。比如傳統(tǒng)數(shù)據(jù)中心里,非計(jì)算、非高電的機(jī)柜功耗就是20kW,可能還不到。將來每個(gè)機(jī)柜可能會(huì)超過100kW,甚至我也看到有更多的一些規(guī)劃,我們肯定也希望機(jī)柜的數(shù)量盡量多。因?yàn)閲?guó)產(chǎn)GPU,100kW放進(jìn)去可能也就是100個(gè),如果需要幾百張卡的超節(jié)點(diǎn)的話,肯定是需要多個(gè)機(jī)柜的。
所以我覺得發(fā)展的起點(diǎn)和終點(diǎn)大家應(yīng)該是有共識(shí)的:起點(diǎn)是單機(jī)柜,終點(diǎn)是多機(jī)柜,且每個(gè)機(jī)柜的電量會(huì)越來越高。
從機(jī)柜數(shù)量和每個(gè)機(jī)柜能夠容納的GPU數(shù)量來講,可以說有兩條路徑。第一條路徑是先把單個(gè)機(jī)柜的功耗往上提,盡量往里塞(GPU),看能塞多少。NVIDIA走的其實(shí)就是這樣一個(gè)路線,今年也發(fā)布了后面的幾代產(chǎn)品,從NVL72、144到576。還有一條路徑是先考慮增加機(jī)柜的數(shù)量,把數(shù)量加到位了之后,再把他們連成一個(gè)超節(jié)點(diǎn)。海外比較典型的樣品就是谷歌的TPU,最新應(yīng)該是有數(shù)千卡的超節(jié)點(diǎn),它其實(shí)就是一個(gè)多機(jī)柜的展示方法。
這時(shí)出現(xiàn)了光互連的必然性。當(dāng)超過一個(gè)機(jī)柜,多個(gè)機(jī)柜的GPU互連的時(shí)候,直接使用光可能是一個(gè)必要的選擇。
超節(jié)點(diǎn)GPU直接出光使用多個(gè)機(jī)柜的時(shí)候有什么好處呢?
首先,光纜相對(duì)于銅纜最明確的優(yōu)勢(shì)就是距離遠(yuǎn)。一般來說,銅纜112G可以走1米或者2米,或者AEC有的時(shí)候可以走3-7米。而普通的短距光纜很容易就可以到50米、100米甚至千米級(jí)別。距離不是問題,這其實(shí)就產(chǎn)生了很多的可能性,比如組成超節(jié)點(diǎn)的機(jī)器可以隨便放在哪里。
今天上午,包括之前的專家也提到高電機(jī)柜本身也是有相當(dāng)?shù)募夹g(shù)挑戰(zhàn)的。比如整個(gè)數(shù)據(jù)中心的土建、供電、液冷以及整套系統(tǒng)如何設(shè)計(jì)等。當(dāng)我們有跨機(jī)柜的超節(jié)點(diǎn)能力的時(shí)候,短期內(nèi)其實(shí)就可以規(guī)避這些問題。
比如同樣是四個(gè)服務(wù)器的超節(jié)點(diǎn),假設(shè)單個(gè)機(jī)柜無法支持那么大的供電和散熱,我們可以把它們放在兩個(gè)機(jī)柜里,通過光纜互連,這樣就能組成一個(gè)超節(jié)點(diǎn)。
解鎖了距離限制之后,其實(shí)還有很多其他的優(yōu)勢(shì)。從商業(yè)上來講,交付形態(tài)不一定就是完整的機(jī)柜,因?yàn)槌?jié)點(diǎn)本身就是多個(gè)服務(wù)器連起來,我們可以用4個(gè)、6個(gè)或者8個(gè)服務(wù)器,也可以按照客戶的需求靈活配置,對(duì)有些客戶來說他們是比較在意這一點(diǎn)的。
大家都知道光纜傳輸距離遠(yuǎn)遠(yuǎn)長(zhǎng)于銅纜,另外還有一點(diǎn)可能大家沒太意識(shí)到,光纜其實(shí)比銅纜要細(xì)很多。
上圖右側(cè)展示的是我們已經(jīng)部署落地的光纜和銅纜混合的一個(gè)超節(jié)點(diǎn)。大家很容易看出來,淺藍(lán)色很細(xì)的線就是光纜,占據(jù)了圖片很大面積的黑色的線就是銅纜,很明顯他們的尺寸是不一樣的。
如果用銅纜來做這件事,可能上架的時(shí)候會(huì)阻塞風(fēng)道,影響散熱,導(dǎo)致產(chǎn)生一些問題。當(dāng)然也可以用液冷,但是液冷又是另外一層技術(shù)難點(diǎn)。另外銅纜比較重,會(huì)去拉上面的銅纜接口。銅攬接口長(zhǎng)期承重的時(shí)候,會(huì)有可靠性的問題。這些都是我們?cè)诂F(xiàn)實(shí)部署中遇到的一些具體情況。
使用光纜業(yè)界也有一些顧慮,包括功耗、成本和可靠性三個(gè)方面,尤其是在大規(guī)模超節(jié)點(diǎn)中,光纜的使用數(shù)量會(huì)非常大。一個(gè)典型的例子就是華為今年發(fā)布的CloudMatrix 384超節(jié)點(diǎn)。
上圖我圈出了兩個(gè)數(shù)字,CloudMatrix 384在二層使用了3000多根光纜,也就意味著6000多個(gè)光模塊。這么大數(shù)量的光模塊顯然對(duì)于功耗、成本和可靠性有著非常高的要求。
為什么光互連相比銅互連會(huì)有這樣的問題呢?基于可插拔光模塊的光互連,實(shí)際上不是半導(dǎo)體產(chǎn)品,每個(gè)光模塊至少有二三十個(gè)零件。激光器、隔離器、棱鏡等,還要用膠水等各種各樣的方式把它們粘起來,之后以上這些再乘以4或者乘以8。所以每個(gè)光模塊里都有幾十個(gè)分立的零件,通過機(jī)械的方式組合成最終的產(chǎn)品。
大家很容易聯(lián)想到,我們可以把光模塊這樣的非半導(dǎo)體產(chǎn)品變成半導(dǎo)體產(chǎn)品,把這些元器件全部或者盡量多的集成到1個(gè)或者2個(gè)芯片里,從而符合長(zhǎng)期以來大家認(rèn)知當(dāng)中的芯片產(chǎn)品的邏輯。
芯片產(chǎn)品不怕復(fù)雜,一個(gè)計(jì)算芯片可能有數(shù)十億個(gè)晶體管,只要能夠在半導(dǎo)體工藝中進(jìn)行生產(chǎn),其可靠性就會(huì)非常好。在需求量非常大的時(shí)候,每個(gè)芯片的成本也可以降低到可控層面。因此,我們覺得解決以上問題很重要的一個(gè)方向就是使用集成度更高、更接近于半導(dǎo)體邏輯的光學(xué)產(chǎn)品。
03 光互連技術(shù)的演進(jìn)
通過這張圖我們可以看到光互連技術(shù)的演進(jìn)路線。
左下角是目前大部分光通信的狀態(tài),業(yè)界在這方面也有幾十年的經(jīng)驗(yàn),是一個(gè)可插拔的光模塊。光模塊距離主芯片的距離,從服務(wù)器的尺寸來看可能有幾十厘米。再進(jìn)一步,可以把光電轉(zhuǎn)換模塊放在離主芯片更近的地方,比如放在同一個(gè)PCB板上,這個(gè)距離可能會(huì)到5cm、3cm。
再往后可以放在同一個(gè)封裝上面,變成所謂的共封裝光學(xué)Co - Packaged Optics,簡(jiǎn)稱CPO,這也是最近兩年以來比較火的一個(gè)概念。
最后我們很容易想象,可以把光電轉(zhuǎn)換和主芯片,也就是數(shù)字芯片垂直3D堆疊放在同一個(gè)芯片上,實(shí)現(xiàn)光電融合。
這樣的技術(shù)演進(jìn)在集成度上有多大的好處呢?這里有一個(gè)直觀的展示。
上面中間展示的是博通51.2T的TH5交換機(jī),也是博通第一代量產(chǎn)化的共封裝光學(xué)CPO產(chǎn)品。大家可以看到中間的封裝旁邊有四塊玻璃窗口一樣的東西,里面是可以傳達(dá)51.2T的一個(gè)光電轉(zhuǎn)換引擎,被封裝在芯片邊里。
如果51.2T的帶寬用傳統(tǒng)的光模塊來支持,會(huì)是什么狀態(tài)呢?那就是周圍這一圈光模塊,128個(gè)光模塊全部擺在一起就是這個(gè)樣子。
通過上圖,這樣大家可以很直觀的看到兩種技術(shù)在集成度上會(huì)有多大的提升。
功耗層面,從光學(xué)層面來講,共封裝光學(xué)相比傳統(tǒng)可插拔光模塊會(huì)節(jié)省1/3-2/3左右的功耗。功耗相對(duì)來說是小一點(diǎn)的擔(dān)憂,畢竟不管怎么說,通信的功耗相比1kW以上的GPU來說可能還是很小的。
可靠性是更為重要的一點(diǎn)。集群在做訓(xùn)練和推理的時(shí)候,與傳統(tǒng)的網(wǎng)絡(luò)邏輯不一樣,他們是協(xié)同作戰(zhàn)。也就是說假如一個(gè)GPU因?yàn)榛ミB出現(xiàn)問題,少則拖累一個(gè)服務(wù)器,多則整個(gè)萬卡集群需要重啟,這個(gè)代價(jià)是非常大的。所以業(yè)界對(duì)于集群任何部分的可靠性都有很高的要求,當(dāng)然也包括對(duì)互連的可靠性。
我們使用更先進(jìn)的集成光學(xué)技術(shù)的時(shí)候,對(duì)于光互連的可靠性實(shí)際上也有比較客觀的提升,最簡(jiǎn)單的就是分立器件的數(shù)量少了。當(dāng)然每個(gè)器件通過機(jī)械的方式安裝在一起的時(shí)候,每一個(gè)安裝的地方都有可能出問題。此外因?yàn)槭枪饣ミB,某一個(gè)地方進(jìn)去一?;覊m可能都會(huì)產(chǎn)生問題,我們可以盡量減少灰塵可能進(jìn)去的地方,從而降低出現(xiàn)問題的概率,包括把激光光源拉到面板上面遠(yuǎn)離熱源,這樣本身也可以極大降低光互連出問題的概率。
海外一些巨頭在共封裝光學(xué)CPO上已經(jīng)有一些布局。
在共封裝光學(xué)CPO上的研究,包括商業(yè)化嘗試,在過去十年一直在持續(xù)。真正做到接近量產(chǎn)級(jí)別的,是通訊領(lǐng)域的第一大巨頭博通,前面也展示了他們共封裝的交換機(jī)。今年上半年,NVIDIA在GTC上也發(fā)布了他們共封裝光學(xué)CPO產(chǎn)品。也就是說通信和算力界的兩大龍頭,都已經(jīng)進(jìn)入了這個(gè)領(lǐng)域。
04 基于分布式光交換的超節(jié)點(diǎn)新架構(gòu)
對(duì)于整體可靠性的提升,我們還有另一個(gè)想法,就是通過光交換減少冗余度。從現(xiàn)有超節(jié)點(diǎn)的架構(gòu)來說,不管是直連架構(gòu),還是交換架構(gòu),都要回答一個(gè)問題:當(dāng)一個(gè)超節(jié)點(diǎn)有上百甚至數(shù)百個(gè)GPU的時(shí)候,如何保證任何一個(gè)點(diǎn)出問題時(shí),超節(jié)點(diǎn)還能繼續(xù)運(yùn)行。所以總要有各種各樣的冗余設(shè)置在里面。
我們覺得可以把交換功能融入到光互連中,把一些小的交換功能融入到光IO領(lǐng)域,我們稱之為分布式光交換dOCS。這是一個(gè)很小的功能,但組成集群之后可以實(shí)現(xiàn)非常有意思的狀態(tài)。
通過上圖來做一些簡(jiǎn)單的解釋。
假設(shè)上面的每一個(gè)圓都是一個(gè)服務(wù)器,超節(jié)點(diǎn)是由若干個(gè)服務(wù)器組成的。正常狀態(tài)下,第一行每4個(gè)服務(wù)器(32卡)組成一個(gè)超節(jié)點(diǎn),我們可以通過光互連把前面12個(gè)服務(wù)器組成三個(gè)超節(jié)點(diǎn),并給到兩個(gè)備份的服務(wù)器。同時(shí),因?yàn)槲覀冊(cè)诠饣ミB出口的地方提供了交換功能,因此可以做靈活的拓?fù)淝袚Q。
假設(shè)因?yàn)槟承┰騼蓚€(gè)服務(wù)器出了問題,當(dāng)系統(tǒng)檢測(cè)到異常時(shí),分布式光交換可以跳過一個(gè)服務(wù)器重組超節(jié)點(diǎn)。比如圖中第二行,跳過第4個(gè)壞的服務(wù)器,然后把兩個(gè)備份服務(wù)器拉進(jìn)來,重新把好的服務(wù)器用起來,壞的服務(wù)器下線。
這樣冗余備災(zāi)的顆粒度就不是整個(gè)超節(jié)點(diǎn)了,只是一個(gè)服務(wù)器。對(duì)于冗余來講,能夠在很大程度上的緩解壓力,因?yàn)橛脕砣哂鄠錇?zāi)的服務(wù)器是不再賺錢的服務(wù)器。
我們肯定希望系統(tǒng)在保持整個(gè)集群效率的前提下,能用更小的冗余度保證整體運(yùn)營(yíng)是最好的,這樣的靈活度對(duì)于大集群來說是非常有價(jià)值的。
從另一個(gè)方向來說,靈活的拓?fù)淝袚Q可以被用來構(gòu)建不同尺寸的超節(jié)點(diǎn)。很多時(shí)候,超節(jié)點(diǎn)的尺寸并不是越高越好。
假設(shè)一個(gè)GPU出口帶寬總數(shù)一致,對(duì)于比較大的模型來說會(huì)希望組建大尺寸的超節(jié)點(diǎn)。但當(dāng)某個(gè)時(shí)候要切換到相對(duì)小一點(diǎn)的模型時(shí),比如文生圖模型比大語言模型要小很多,這種情況下,所謂最佳的超節(jié)點(diǎn)尺寸可能就變成了兩個(gè)服務(wù)器,或者有的時(shí)候需要六個(gè)服務(wù)器、八個(gè)服務(wù)器,可以通過靈活的切換,達(dá)到靈活改變超節(jié)點(diǎn)尺寸的效果。
當(dāng)然把所有的服務(wù)器接上所有的交換機(jī)也可以實(shí)現(xiàn),但其成本、系統(tǒng)的復(fù)雜度,和這樣的超節(jié)點(diǎn)解決方案就不在一個(gè)層次了。
這里展示的是我們實(shí)現(xiàn)這一點(diǎn)所做的一些工作,總體來說就是集成的光電轉(zhuǎn)換。區(qū)別是我們?cè)诿恳粋€(gè)光電轉(zhuǎn)換的出口處,做了多路徑備份,由整個(gè)系統(tǒng)去控制它,在恰當(dāng)?shù)臅r(shí)候做恰當(dāng)?shù)那袚Q,以實(shí)現(xiàn)拓?fù)涞撵`活調(diào)整。
使用分布式光交換,可以在各個(gè)情況下提升超節(jié)點(diǎn)集群算力的利用率。此外,我們知道最大、最先進(jìn)的交換芯片其實(shí)也是非常依賴先進(jìn)制程和先進(jìn)封裝技術(shù)的,而分布式光交換所依賴的供應(yīng)鏈要簡(jiǎn)單不少。光芯片不依賴先進(jìn)制程,并且相對(duì)來說國(guó)內(nèi)水平和海外差距不大,這個(gè)可能是使用光交換,尤其是分布式光交換的額外好處。
這個(gè)視頻,是曦智科技對(duì)于下一代更強(qiáng)大的光電混合算力集群的愿景,融入了基于純電基礎(chǔ)設(shè)施的優(yōu)勢(shì),同時(shí)加上集成光學(xué)可以帶來更強(qiáng)大的性能提升,共同組成一個(gè)包括光電混合計(jì)算+光互連+光交換的集群狀態(tài)。