A CERN forradalma: így vésik a mesterséges intelligenciát szilíciumba

Érdekes felvetés, hogy míg a legtöbb MI-fejlesztő főként előregyártott chipeken és előre beállított modelleken dolgozik, a CERN kutatói teljesen egyedi utat járnak: nanomásodperc-sebességgel működő MI-algoritmusokat „égetnek” közvetlenül a szilíciumlapkákba, ezzel szűrik ki az adatözön felesleges részét.

A világegyetem működési rendszerének tesztpályája

A CERN, vagyis az Európai Nukleáris Kutatási Szervezet méltán híres a részecskefizika legizgalmasabb kísérleteiről, köztük a Nagy Hadronütköztető (Large Hadron Collider, LHC) működtetéséről. Az LHC egy 27 kilométeres gyűrű Svájc és Franciaország határa alatt, ahol szubatomi részecskéket ütköztetnek majdnem fénysebességgel, hogy feltárják a Standard Modell eddig rejtett titkait.

Ez a kísérlet évente mintegy 40 000 exabájtnyi, vagyis körülbelül negyed internetnyi nyers adatot termel – olyan adatmennyiséget, amelynek tárolására még a CERN sem képes. Éppen ezért az információt valós időben kell leszűkíteni a megőrzésre érdemes töredékre. Valós idő alatt itt olyan sebességet kell érteni, amikor a szenzorok száz terabájt/másodperccel közvetítik az adatokat – ez messze meghaladja bármelyik nagy techóriás adatkezelési szintjét.

Minden ütközés számít, de csak a legkülönlegesebb marad

Az LHC-ben egyszerre mintegy 2 800 protonnyaláb száguld a gyűrűben, 25 nanomásodperces különbséggel. A mágnesek ezeket a nyalábokat összeszorítják a detektorok előtt, hogy a lehető legtöbb ütközés jöhessen létre. Azonban minden milliárd részecskéből átlagosan csak 60 pár ütközik frontálisan egy-egy áthaladás során.

A minden egyes ütközésből származó elektromos jeleket a detektorok érzékelik, és megpróbálják visszafejteni, hogy újszerű, eddig ismeretlen részecskék bukkannak-e elő. Egyetlen ütközés átlagosan néhány megabájtnyi adatot generál, és másodpercenként körülbelül egymilliárd ilyen esemény zajlik – azaz körülbelül annyi adat keletkezik minden másodpercben, mint amennyi film a teljes Netflix-könyvtárban elérhető.

Fel sem merülhet az összes adat felszínre továbbítása; ez kivitelezhetetlen, ezért az óriási peremhálózat (edge computing) rögtön a helyszínen válogatja ki a legérdekesebb történéseket.

Adatgyilkos algoritmus: tűéles döntések egy ezredmásodperc alatt

A detektorokba egyedi ASIC-chipeket és körülbelül 1 000 FPGA-t (programozható logikai áramköröket) építettek be, amelyek maguk döntik el, milyen adatokat őrizzenek meg. Az adat tárolása mindössze 4 mikroszekundumig engedélyezett – ha eddig nem születik döntés, az információ végleg elveszik.

A válogatást végző Level One Trigger (első szintű válogató rendszer) minden eseményhez 1-es (elfogadom) vagy 0-s (elutasítom) értéket rendel. A döntéseket egy speciális, rendellenesség-felismerő (anomaly detection) algoritmus hozza – több mint 99,7%-ban elutasítja az adatokat, csak a rendkívül ritka és érdekes ütközéseket tartja meg.

Az algoritmus mindössze 50 nanomásodperc alatt dönt. Ennek eredménye, hogy mindössze 0,02%, vagyis másodpercenként nagyjából 110 000 ütközés adata jut el a felszínre – természetesen ez is terabájt/másodperces adatmennyiséget jelent.

Ezután következik az adatok második rostálása, a Magas szintű válogató (High Level Trigger), ahol további töredéknyi, körülbelül 1 000 eseményt mentenek le valódi elemzésre. Itt már 25 600 CPU és 400 GPU dolgozik, naponta közel 1 petabájt adatmennyiséggel.

A gépi tanulás szelídített szörnyei

Az LHC detektorai olyan extrém környezetet teremtenek, amellyel szinte sehol nem találkozni az MI világában. A legtöbb elterjedt, valós idejű MI-könyvtár (például zajszűrő fülhallgatókban) alig érné utol a CERN-ben szükséges adatáramlást és késleltetési igényeket.

Ezért a CERN elszánt mérnökei kifejezetten kis méretű, gyors és okos modelleket fejlesztettek – minden modellt kvantáltak, metszettek (pruning), és maximálisan párhuzamosítottak, hogy csak a legalapvetőbb, elengedhetetlen információ maradjon. Egyedi bitszélességet rendeltek minden számításhoz, és saját transpilert (fordítóprogramot) írtak, amely bármilyen hardveres platformra C++-ban generálja le a modelleket.

Az egész rendszer az adatok elérhetőségén alapul: nincsenek sorban végrehajtott műveletek, minden folyamat azonnal indul, amint a bemenet elérhető. Kulcsfontosságú, hogy az összes döntést hardveresen, magán a chipen belül kell meghozni – nincs rá idő, hogy bármilyen gyors, külső memória segédkezzen. Minden hardver egy konkrét MI-algoritmushoz van szabva.

A CERN mérnökei tapasztalataik szerint a döntésifák-alapú modellek (tree-based models) közel azonos teljesítményt tudtak nyújtani – olcsóbban és gyorsabban –, mint a mélytanulásos modellek (deep learning). Ebben a környezetben a Standard Modell minden egyes ütközése egy strukturált, táblázatba rendezhető mérési halmazt alkot.

Még több adat, még kevesebb hiba

A cél: a részecskeütközések összes paraméterét az öt kilences (99,999%) precizitással meghatározni, ami alapvető például a Higgs-bozon felfedezésénél is. Eddig az LHC legalább 80 hadront (az erős kölcsönhatás által összetartott részecskét) azonosított.

A vadászat most olyan ritka folyamatokra irányul, amelyek milliárdszor ritkábbak – akár egyetlen esély egy billióból.

Az év végén az LHC leáll, hogy megkezdjék az átalakítást a Nagy Luminozitású LHC-vé (High-Luminosity LHC), amely 2031-től működik majd: kétszer nagyobb intenzitású protonnyalábokat, erősebb mágneseket, tízszeres adatsebességet és bonyolultabb eseményeket hozva. Az események mérete is négyszeresére ugrik: 2 MB-ról 8 MB-ra, a teljes rendszer pedig már 63 terabit/másodperc adatot kezel majd.

Miközben a világ MI-kutatói egyre nagyobb, erőforrás-zabáló modelleket fejlesztenek, a CERN a gyorsabb, karcsúbb, célorientált MI irányába lép tovább – hiszen az univerzum megértéséhez sokszor épp az a legértékesebb, hogy megtanuljuk, mit dobjunk ki a kukába.

2026, adminboss, go.theregister.com alapján

Share on Social Media