
Az egységes dizájn előnyei és szükségszerűsége
Az Amazon már elképesztő mennyiségben vetett be Nvidia-féle GB200 és GB300 NVL72 rackeket. Az új Trainium3 UltraServer racksorai zavarba ejtően hasonlítanak ezekhez, és a közeljövőben, a Trainium4 érkezésével az Amazon egyenesen bejelentette, hogy saját fejlesztésű számítási kártyái ugyanabba a vázba, az MGX-vázba (MGX chassis) csúsztathatók majd, mint az Nvidia gyorsítói. Ez üzletileg is indokolt: az AWS szintjén minden egyedi alkatrész csak bonyolultságot szül, ezért mindent egyetlen moduláris rendszerbe öntenek. Pontosan emiatt született például a Meta és az Amazon részvételével a Nyílt Számítási Projekt (Open Compute Project) – a legnagyobbak számára a szabványosítás már létkérdés.
Nemcsak a rackek néznek ki ugyanúgy – a rendszerek belsejében a számítási és hálózati elrendezések is egyre inkább egységesednek. A Trainium3 például négy Trainium3 gyorsítót, egy Graviton processzort és két Nitro adatfeldolgozó egységet párosít egy blade-be – korábban AWS-vasakban csak Intel processzorok voltak. Hasonló logikát követ az AMD, ahol egy Venice CPU, négy MI400 GPU és párosított, intelligens hálózati kártya alkot egy egységet. Egyetlen eltérés, hogy az AMD duplaszéles racket használ. Az Nvidia GB300 szervereiben ez két Grace CPU-val párosul, de a logika szinte ugyanaz.
A kulcs a részletekben rejlett: hálózati architektúra
Az Amazon Trn3 UltraServerei 36 számítási blade-del dolgoznak, amelyek két MGX-stílusú rackben helyezkednek el. Így összesen 144 gyorsító dolgozik együtt az új, NeuronSwitch nevű összekötő hálózaton keresztül, szerverenként mintegy 20 kapcsolóval. A pontos topológiát egyelőre nem árulta el az AWS, de a megközelítés ismerős: ezek az összekapcsoló hálózatok teszik lehetővé, hogy akár 72 vagy 144 chip erőforrásai egyetlen, rackméretű szuperszámítógépként működjenek.
Az Nvidia GB200 vagy GB300 NVL72 esetében 18 kapcsoló dolgozik 9 modulba szerelve, az AMD pedig 12 darab, 102,4 Tb/s sebességű Ethernet-kapcsolóval dolgozik hat dupla blade-ben.
A protokollok terén többféle megközelítés él: az AWS saját NeuronSwitch-ét használja, az AMD az UALink-et Ethernetre alagútba csomagolja, míg az Nvidia az NVLinket és az NVSwitch-et futtatja. Ez azonban nem marad sokáig így: az Amazon már jelezte, hogy a következő generációs Trainium4 gyorsítóiban mind az UALinket, mind az NVLink Fusion megoldásokat használni fogja.
Miért jobb a kapcsolóalapú architektúra?
A korábbi Trainium2 rendszerek még 2D és 3D torusz topológiát alkalmaztak – ezek hálós szerkezetben kapcsolják össze a gyorsítókat. Bár Nafea Bshara (az AWS Annapurna Labs társalapítója) szerint bizonyos munkaterhelésekhez ezek kiválók, a mai nagyméretű modellek igényeihez már jobb megoldás a kapcsolóalapú architektúra. Az előtöltési (prefill) fázisban ugyan nem játszik óriási szerepet a kapcsoló, de a tokenenkénti dekódolásnál kifizetődő, mert az egyidejűséget és a memóriaelérést maximalizálja, miközben a késleltetést is alacsonyan tartja.
Van hátulütője is: a bonyolultság nő, mert a hagyományos mesh nem igényel kapcsolót, míg a kapcsolóalapú megoldások igen – cserébe mégis kevesebb az „ugrás”, így csökken a késleltetés. 144 gyorsító fölé azonban még nem sikerült jelentősen skálázni.
Google: a kakukktojás
A mezőnyből csak a Google lóg ki: hetedik generációs Ironwood rendszerei továbbra is 2D és 3D toruszokat használnak, így egyetlen klaszterben 9216 TPU-t kapcsolhatnak össze. Mindezt optikai átvitellel oldják meg, aminek magasabb energiafogyasztását azonban ellensúlyozza a kapcsolók hiánya.
A „Chocolate Factory” kifejezetten optikai áramkörkapcsolókat alkalmaz, ami egy telefonközponthoz hasonló: a gépeket felhasználásonként dinamikusan újra lehet csatlakoztatni, és ha egy TPU meghibásodik, egy gombnyomással le lehet választani, majd újat a helyére kötni.
Összefoglalásként megjegyezhető, hogy az MI-szuperszerverek világa rekordgyorsasággal szabványosodik. Az óriásvállalatok ugyanazokat a működési elveket és fizikai kialakításokat veszik át, hogy a legnagyobb teljesítményt hozzák ki mindabból, amit az MI-korszak infrastruktúrája nyújtani képes – miközben az innováció határai a rackek belső világába költöznek.
