Az Nvidia fénysebességre vált: kulisszák mögött az optikai áttörés

A 2020-as évek közepére rendkívül felgyorsult a mesterséges intelligencia fejlődése, és ehhez az Nvidia óriási teljesítményű GPU-rendszerei adták az alapot. Kiderült azonban, hogy a hagyományos rézkábelek végső határaikhoz közelítenek, és a továbblépéshez új megközelítésre van szükség. Az Nvidia vezetése radikális megoldást választott: a fényt, vagyis az optikai összeköttetéseket. Hamarosan ezerszám kötik majd össze a grafikus processzorokat egyetlen rendszerben.

Az óriásrendszerek új korszaka

Néhány éve még nyolc GPU működött együtt az Nvidia rendszereiben, de az MI ugrásszerű fejlődése már rövid időn belül ezrek összehangolt működését tette szükségessé. A Grace Hopper szuperchipek 2023-as bevezetése már egy korszakváltás előszele volt, de az igazi áttörést idén a Grace Blackwell NVL72 rendszer hozta el: itt 72 GPU-t egyesítettek egy hatalmas MI-gyorsítóvá, mindezt rézalapú kábelezéssel, amely kilométereken át húzódik a szerverekben.

Ez alatt azt kell érteni, hogy rézkábellel viszonylag olcsón és energiahatékonyan lehet összekötni nagy teljesítményű chipeket, hiszen a rézkábeles összeköttetés alig fogyaszt áramot, és nincsenek benne aktív, hibalehetőségnek kitett alkatrészek. Ugyanakkor komoly korlátok is akadnak: az 1,8 TB/s sávszélesség miatt a kábelek csak néhány centiméter hosszúak lehetnek, mielőtt a jel zaja mindent elmosna. Emiatt az Nvidia kénytelen volt a lehető legtöbb GPU-t bepréselni egyetlen rackbe, és a központi kapcsolók is emiatt vannak a rackek közepén.

Az optika kihívása: a pluggable modulok buktatói

Különösen fontos kiemelni, hogy amikor először felmerült a több rackszekrényes összekapcsolás igénye, csak a külső, úgynevezett pluggable optikai modulokat lehetett volna használni. Ezek lézerrel, jelfeldolgozóval és újraidőzítővel (retimerrel) felszerelt eszközök, amelyek átalakítják az elektromos jeleket fénnyé, majd vissza.

Ez elsőre jól hangzik, de például egy Blackwell GPU-hoz 18 darab, 800 Gbps sávszélességű modul kellett volna (9 a gyorsítóhoz, 9 a kapcsolóhoz). Az egyes modulok fogyasztása 10–15 watt, de 72 GPU esetén hamar 1,5 MW plusz energiafogyasztásnál járunk – ez egy egész szerverfarmnyi többlet.

Az utóbbi időben azonban áttörések születtek a ko-csomagolt optika (co-packaged optics, CPO) területén. Itt az optikai motorokat közvetlenül a kapcsolóchipek mellé integrálják, így jelentősen csökken az energiafogyasztás és a szükséges modulok száma.

Vagyis az Nvidia már 2025-ben elkezdi a CPO-technológia használatát saját Ethernet- és InfiniBand-kapcsolóchipjeiben, nagyot lépve előre az MI-infrastruktúrák skálázhatóságában. Az NVLink-topológiában viszont csak nemrég bukkant fel az optika, főként a legújabb fejlesztéseknél.

Az NVLink fényre vált

A legújabb generáció, a Vera Rubin NVL576 és a Rosa Feynman NVL1152 már egyszerre több rackszekrényben terjeszti ki a GPU-gyorsítók hálózatát, az optikai átvitellel számottevően megnövelve a skálázhatóságot.

Az NVL576 modulnál például kombinálják a rézkábeles és az optikai összeköttetéseket: a racken belül megmarad a réz, a spine kapcsolókhoz viszont már optikai pluggable modulokat vetnek be. A pontos topológia még nem ismert, de egy kétszintű, fat-tree megoldás valószínű. A Vera Rubin esetén az optikai skálázás elsőként a 8 rackes Oberon NVL72 rendszereknél jelenik meg, míg az NVL144 Kybernél egyelőre nem alkalmazzák.

Magyarán, minél több rackszekrényt lehet optikailag összekötni, annál kevésbé fontos, hogy minden egyes GPU-t fizikailag egy helyre zsúfoljanak.

Feynman: beépítik a fényt

Az igazi áttörés azonban a Feynman generációnál várható, amely 2028-tól kerül gyártásba. Itt már lehetőség nyílik arra, hogy magukba a GPU-csomagokba és a kapcsolókba is beépítsék az optikai modulokat (ko-csomagolt optika), akár egy- vagy kétlépcsős hálózati kialakítással.

Ez jelentős rugalmasságot ad: a kapcsolótálcák (switch tray) cseréjével vagy a spine rack mozgatásával egyszerűen változtatható az összeszerelt rendszer teljesítménye. Az egységes, egylépcsős optikai hálózat különösen azért vonzó, mert minimalizálja a késleltetést, ami létfontosságú a nagy MI-modellek betanításánál.

Fontos megjegyezni, hogy a bővülő CPO-használathoz óriási kapacitású lézermodul-ellátás kell. Emiatt az Nvidia meghatározó, összesen 1,45 billió forint értékű befektetéseket eszközölt a nagy optikai gyártókba, a Coherent és Lumentum cégekbe, valamint 725 milliárd forinttal a Marvell-be, hogy biztosítsa az alkatrészellátás jövőjét.

Fényes jövő: az Nvidia optikai stratégiája

Különösen fontos kiemelni, hogy az MI-rendszerek új generációja már nem nélkülözheti az optikai összeköttetéseket. Az Nvidiához köthető partnerek – köztük a Marvell és az AWS – egyre szorosabban működnek együtt a koherens, több rackre kiterjedő memóriabuszok fejlesztésében is.

A következő évtizedben tehát szinte biztos, hogy az MI-tréning szuperszámítógépekben a fény váltja fel a rezet az összekapcsolásnál — robbanásszerű gyorsulást, energiahatékonyságot és példátlan rugalmasságot hozva magával. Az Nvidia már most felkészül arra az időszakra, amikor az MI-tanítás fénysebességgel zajlik majd.

2026, adminboss, go.theregister.com alapján

Share on Social Media