
A világegyetem működési rendszerének tesztpályája
A CERN, vagyis az Európai Nukleáris Kutatási Szervezet méltán híres a részecskefizika legizgalmasabb kísérleteiről, köztük a Nagy Hadronütköztető (Large Hadron Collider, LHC) működtetéséről. Az LHC egy 27 kilométeres gyűrű Svájc és Franciaország határa alatt, ahol szubatomi részecskéket ütköztetnek majdnem fénysebességgel, hogy feltárják a Standard Modell eddig rejtett titkait.
Ez a kísérlet évente mintegy 40 000 exabájtnyi, vagyis körülbelül negyed internetnyi nyers adatot termel – olyan adatmennyiséget, amelynek tárolására még a CERN sem képes. Éppen ezért az információt valós időben kell leszűkíteni a megőrzésre érdemes töredékre. Valós idő alatt itt olyan sebességet kell érteni, amikor a szenzorok száz terabájt/másodperccel közvetítik az adatokat – ez messze meghaladja bármelyik nagy techóriás adatkezelési szintjét.
Minden ütközés számít, de csak a legkülönlegesebb marad
Az LHC-ben egyszerre mintegy 2 800 protonnyaláb száguld a gyűrűben, 25 nanomásodperces különbséggel. A mágnesek ezeket a nyalábokat összeszorítják a detektorok előtt, hogy a lehető legtöbb ütközés jöhessen létre. Azonban minden milliárd részecskéből átlagosan csak 60 pár ütközik frontálisan egy-egy áthaladás során.
A minden egyes ütközésből származó elektromos jeleket a detektorok érzékelik, és megpróbálják visszafejteni, hogy újszerű, eddig ismeretlen részecskék bukkannak-e elő. Egyetlen ütközés átlagosan néhány megabájtnyi adatot generál, és másodpercenként körülbelül egymilliárd ilyen esemény zajlik – azaz körülbelül annyi adat keletkezik minden másodpercben, mint amennyi film a teljes Netflix-könyvtárban elérhető.
Fel sem merülhet az összes adat felszínre továbbítása; ez kivitelezhetetlen, ezért az óriási peremhálózat (edge computing) rögtön a helyszínen válogatja ki a legérdekesebb történéseket.
Adatgyilkos algoritmus: tűéles döntések egy ezredmásodperc alatt
A detektorokba egyedi ASIC-chipeket és körülbelül 1 000 FPGA-t (programozható logikai áramköröket) építettek be, amelyek maguk döntik el, milyen adatokat őrizzenek meg. Az adat tárolása mindössze 4 mikroszekundumig engedélyezett – ha eddig nem születik döntés, az információ végleg elveszik.
A válogatást végző Level One Trigger (első szintű válogató rendszer) minden eseményhez 1-es (elfogadom) vagy 0-s (elutasítom) értéket rendel. A döntéseket egy speciális, rendellenesség-felismerő (anomaly detection) algoritmus hozza – több mint 99,7%-ban elutasítja az adatokat, csak a rendkívül ritka és érdekes ütközéseket tartja meg.
Az algoritmus mindössze 50 nanomásodperc alatt dönt. Ennek eredménye, hogy mindössze 0,02%, vagyis másodpercenként nagyjából 110 000 ütközés adata jut el a felszínre – természetesen ez is terabájt/másodperces adatmennyiséget jelent.
Ezután következik az adatok második rostálása, a Magas szintű válogató (High Level Trigger), ahol további töredéknyi, körülbelül 1 000 eseményt mentenek le valódi elemzésre. Itt már 25 600 CPU és 400 GPU dolgozik, naponta közel 1 petabájt adatmennyiséggel.
A gépi tanulás szelídített szörnyei
Az LHC detektorai olyan extrém környezetet teremtenek, amellyel szinte sehol nem találkozni az MI világában. A legtöbb elterjedt, valós idejű MI-könyvtár (például zajszűrő fülhallgatókban) alig érné utol a CERN-ben szükséges adatáramlást és késleltetési igényeket.
Ezért a CERN elszánt mérnökei kifejezetten kis méretű, gyors és okos modelleket fejlesztettek – minden modellt kvantáltak, metszettek (pruning), és maximálisan párhuzamosítottak, hogy csak a legalapvetőbb, elengedhetetlen információ maradjon. Egyedi bitszélességet rendeltek minden számításhoz, és saját transpilert (fordítóprogramot) írtak, amely bármilyen hardveres platformra C++-ban generálja le a modelleket.
Az egész rendszer az adatok elérhetőségén alapul: nincsenek sorban végrehajtott műveletek, minden folyamat azonnal indul, amint a bemenet elérhető. Kulcsfontosságú, hogy az összes döntést hardveresen, magán a chipen belül kell meghozni – nincs rá idő, hogy bármilyen gyors, külső memória segédkezzen. Minden hardver egy konkrét MI-algoritmushoz van szabva.
A CERN mérnökei tapasztalataik szerint a döntésifák-alapú modellek (tree-based models) közel azonos teljesítményt tudtak nyújtani – olcsóbban és gyorsabban –, mint a mélytanulásos modellek (deep learning). Ebben a környezetben a Standard Modell minden egyes ütközése egy strukturált, táblázatba rendezhető mérési halmazt alkot.
Még több adat, még kevesebb hiba
A cél: a részecskeütközések összes paraméterét az öt kilences (99,999%) precizitással meghatározni, ami alapvető például a Higgs-bozon felfedezésénél is. Eddig az LHC legalább 80 hadront (az erős kölcsönhatás által összetartott részecskét) azonosított.
A vadászat most olyan ritka folyamatokra irányul, amelyek milliárdszor ritkábbak – akár egyetlen esély egy billióból.
Az év végén az LHC leáll, hogy megkezdjék az átalakítást a Nagy Luminozitású LHC-vé (High-Luminosity LHC), amely 2031-től működik majd: kétszer nagyobb intenzitású protonnyalábokat, erősebb mágneseket, tízszeres adatsebességet és bonyolultabb eseményeket hozva. Az események mérete is négyszeresére ugrik: 2 MB-ról 8 MB-ra, a teljes rendszer pedig már 63 terabit/másodperc adatot kezel majd.
Miközben a világ MI-kutatói egyre nagyobb, erőforrás-zabáló modelleket fejlesztenek, a CERN a gyorsabb, karcsúbb, célorientált MI irányába lép tovább – hiszen az univerzum megértéséhez sokszor épp az a legértékesebb, hogy megtanuljuk, mit dobjunk ki a kukába.
