
Az óriásrendszerek új korszaka
Néhány éve még nyolc GPU működött együtt az Nvidia rendszereiben, de az MI ugrásszerű fejlődése már rövid időn belül ezrek összehangolt működését tette szükségessé. A Grace Hopper szuperchipek 2023-as bevezetése már egy korszakváltás előszele volt, de az igazi áttörést idén a Grace Blackwell NVL72 rendszer hozta el: itt 72 GPU-t egyesítettek egy hatalmas MI-gyorsítóvá, mindezt rézalapú kábelezéssel, amely kilométereken át húzódik a szerverekben.
Ez alatt azt kell érteni, hogy rézkábellel viszonylag olcsón és energiahatékonyan lehet összekötni nagy teljesítményű chipeket, hiszen a rézkábeles összeköttetés alig fogyaszt áramot, és nincsenek benne aktív, hibalehetőségnek kitett alkatrészek. Ugyanakkor komoly korlátok is akadnak: az 1,8 TB/s sávszélesség miatt a kábelek csak néhány centiméter hosszúak lehetnek, mielőtt a jel zaja mindent elmosna. Emiatt az Nvidia kénytelen volt a lehető legtöbb GPU-t bepréselni egyetlen rackbe, és a központi kapcsolók is emiatt vannak a rackek közepén.
Az optika kihívása: a pluggable modulok buktatói
Különösen fontos kiemelni, hogy amikor először felmerült a több rackszekrényes összekapcsolás igénye, csak a külső, úgynevezett pluggable optikai modulokat lehetett volna használni. Ezek lézerrel, jelfeldolgozóval és újraidőzítővel (retimerrel) felszerelt eszközök, amelyek átalakítják az elektromos jeleket fénnyé, majd vissza.
Ez elsőre jól hangzik, de például egy Blackwell GPU-hoz 18 darab, 800 Gbps sávszélességű modul kellett volna (9 a gyorsítóhoz, 9 a kapcsolóhoz). Az egyes modulok fogyasztása 10–15 watt, de 72 GPU esetén hamar 1,5 MW plusz energiafogyasztásnál járunk – ez egy egész szerverfarmnyi többlet.
Az utóbbi időben azonban áttörések születtek a ko-csomagolt optika (co-packaged optics, CPO) területén. Itt az optikai motorokat közvetlenül a kapcsolóchipek mellé integrálják, így jelentősen csökken az energiafogyasztás és a szükséges modulok száma.
Vagyis az Nvidia már 2025-ben elkezdi a CPO-technológia használatát saját Ethernet- és InfiniBand-kapcsolóchipjeiben, nagyot lépve előre az MI-infrastruktúrák skálázhatóságában. Az NVLink-topológiában viszont csak nemrég bukkant fel az optika, főként a legújabb fejlesztéseknél.
Az NVLink fényre vált
A legújabb generáció, a Vera Rubin NVL576 és a Rosa Feynman NVL1152 már egyszerre több rackszekrényben terjeszti ki a GPU-gyorsítók hálózatát, az optikai átvitellel számottevően megnövelve a skálázhatóságot.
Az NVL576 modulnál például kombinálják a rézkábeles és az optikai összeköttetéseket: a racken belül megmarad a réz, a spine kapcsolókhoz viszont már optikai pluggable modulokat vetnek be. A pontos topológia még nem ismert, de egy kétszintű, fat-tree megoldás valószínű. A Vera Rubin esetén az optikai skálázás elsőként a 8 rackes Oberon NVL72 rendszereknél jelenik meg, míg az NVL144 Kybernél egyelőre nem alkalmazzák.
Magyarán, minél több rackszekrényt lehet optikailag összekötni, annál kevésbé fontos, hogy minden egyes GPU-t fizikailag egy helyre zsúfoljanak.
Feynman: beépítik a fényt
Az igazi áttörés azonban a Feynman generációnál várható, amely 2028-tól kerül gyártásba. Itt már lehetőség nyílik arra, hogy magukba a GPU-csomagokba és a kapcsolókba is beépítsék az optikai modulokat (ko-csomagolt optika), akár egy- vagy kétlépcsős hálózati kialakítással.
Ez jelentős rugalmasságot ad: a kapcsolótálcák (switch tray) cseréjével vagy a spine rack mozgatásával egyszerűen változtatható az összeszerelt rendszer teljesítménye. Az egységes, egylépcsős optikai hálózat különösen azért vonzó, mert minimalizálja a késleltetést, ami létfontosságú a nagy MI-modellek betanításánál.
Fontos megjegyezni, hogy a bővülő CPO-használathoz óriási kapacitású lézermodul-ellátás kell. Emiatt az Nvidia meghatározó, összesen 1,45 billió forint értékű befektetéseket eszközölt a nagy optikai gyártókba, a Coherent és Lumentum cégekbe, valamint 725 milliárd forinttal a Marvell-be, hogy biztosítsa az alkatrészellátás jövőjét.
Fényes jövő: az Nvidia optikai stratégiája
Különösen fontos kiemelni, hogy az MI-rendszerek új generációja már nem nélkülözheti az optikai összeköttetéseket. Az Nvidiához köthető partnerek – köztük a Marvell és az AWS – egyre szorosabban működnek együtt a koherens, több rackre kiterjedő memóriabuszok fejlesztésében is.
A következő évtizedben tehát szinte biztos, hogy az MI-tréning szuperszámítógépekben a fény váltja fel a rezet az összekapcsolásnál — robbanásszerű gyorsulást, energiahatékonyságot és példátlan rugalmasságot hozva magával. Az Nvidia már most felkészül arra az időszakra, amikor az MI-tanítás fénysebességgel zajlik majd.
