
Mi az együttcsomagolt optika, és miért lett olyan fontos?
A legújabb MI-hálózatok extrém sebességeket kívánnak meg: a portokon akár 800 Gbps az elvárás, az Nvidia pedig már az 1,6 Tbps felé halad következő generációs ConnectX-9 hálózati kártyáival. Ebből adódóan a megszokott rézkábelek csak maximum 1–2 méterre képesek használható minőségben jelet továbbítani, így drága jelerősítőkre van szükség. Hatalmas GPU-klaszterek – akár több tízezer darab – összehangolása ekkora mennyiségű, rendkívül energiaigényes, cserélhető optikai csatolókat igényelne.
Az együttcsomagolt optika ezt a problémát úgy oldja meg, hogy magát az optikai alkatrészt az eszközbe, a processzor mellé költözteti: a fotonikus chipletek (apró optikai chipek) közvetlenül a switch ASIC-ok mellé kerülnek. Nincsenek többé külön beépíthető transceiverek; az optikai kábeleket már közvetlenül a switch elejéhez csatlakoztatják.
Egészen pontosan a mérnökök azt tapasztalták, hogy míg egy-egy transceiver önmagában nem tűnik nagynak (portsebességtől függően 9–15 wattot fogyaszt), nagy rendszereknél ez a fogyasztás összeadódik: például egy 128 000 GPU-s rendszerben a cserélhető transceiverek száma 500 000-ről akár 128 000-re is csökkenhet a CPO megoldással. Az Nvidia szerint így az energiahatékonyság akár 3,5-szeresére nőhet, míg a Broadcom mérései szerint akár 65%-kal kisebb optikai fogyasztás is elérhető.
Az áttörés akadályai: megbízhatóság kontra energiatakarékosság
A CPO kiépítésének egyik fő akadálya a megbízhatóság volt: ha egy hagyományos switchnél elromlik egy modul, elveszítünk egy portot, de a switch működik tovább; CPO esetén akár több port is kieshet, ha egy fotonikus chiplet felmondja a szolgálatot.
Ebből adódóan a két legnagyobb gyártó, az Nvidia és a Broadcom is úgy döntött, hogy a lézerforrásokat külön külső modulokban tartják. Így a hibás modul könnyebben és gyorsabban cserélhető, ráadásul egy meghibásodott lézer teljesítménye akár a többi kimenet teljesítményének növelésével is kompenzálható.
A későbbiekben azonban a félelmek némelyike alaptalannak bizonyult. A Broadcom és a Meta közös korai tesztjein például a 400 Gbps portsebességű, Bailly kódnevű CPO switchek több mint egymillió órányi hibamentes, stabil működést értek el. Még a késleltetés is sokat javult, hiszen kevesebb elektromos csatolófelület van az optikai egység és a switch között.
Az Nvidia azt állítja, hogy a Quantum-X Photonics platform tízszer ellenállóbb, és akár ötször hosszabb ideig tud megszakítás nélkül MI-feladatokat kiszolgálni.
Különböző megoldások és verseny az új piacon
Az iparágban jelenleg az Nvidia és a Broadcom állnak az élvonalban. Az Nvidia tavasszal jelentette be Quantum-X és Spectrum-X InfiniBand-, illetve Ethernet CPO-kapcsolóit. Ezek közül a Quantum-X Photonics folyadékhűtésű; 144 porton keresztül biztosít 800 Gbps sebességű InfiniBand-kapcsolatot, összesen 115,2 Tbps sávszélességgel. Ezeket az eszközöket a Texas Advanced Computing Center, a Lambda és a CoreWeave szerverfarmjai is használni fogják.
Ethernet-fronton az Nvidia többféle változatban kínálja Spectrum-X Photonics eszközeit: akár 512 vagy 2048 db 200 Gbps port, vagy 128–512 db 800 Gbps porttal is elérhetők lesznek – igény szerint. Hamarosan azonban a Broadcom a következő generációs, 102,4 Tbps Davisson nevű chipjével támad, amely akár 512 db 200 Gbps porttal dolgozik.
A Micas Networks már szállít olyan CPO switchet, amely a Broadcom Tomahawk 5 chipes Bailly-technológián alapul, 51,2 Tbps kapacitással.
A jövő: minden eszközbe optikát?
Az Nvidia egyelőre kizárólag a kapcsolókban alkalmazza a copackaged optikát; a hálózati kártyáin (SuperNIC) még nem. A Broadcom viszont célja, hogy rövid időn belül magukba az MI-gyorsítókba is integrálja az optikai csomagolást. Már most vannak versenytársak: az Ayar Labs és a Lightmatter újgenerációs chipletekkel kísérleteznek, amelyek óriási, több száz Tbps kétirányú átviteli sebességet ígérnek – akár egyetlen chipbe 8 optikai chiplet integrálva.
A Lightmatter a Passage M1000 nevű szilícium-fotonikus interposerrel próbálkozik, amely különböző chipleteket kapcsol össze nagy sávszélességgel, csomagon belüli és csomagon kívüli kommunikációban egyaránt.
Ha ezek a technológiák beérnek, idővel akár teljesen eltűnhetnek a kivehető optikai modulok, és az MI-szerverek még kompaktabbak, még hatékonyabbak lehetnek – akár ezer gyorsító dolgozhat majd szinte egyként, minden eddiginél kevesebb energiafogyasztással.
