2026. 05. 09., 18:57

A szándékalapú káoszteszt akkor kell, amikor az MI magabiztosan téved

A szándékalapú káoszteszt akkor kell, amikor az MI magabiztosan téved
A mai vállalatok egyre bátrabban telepítenek autonóm MI-rendszereket, ám ezek magától értetődő magabiztossággal képesek váratlanul, akár katasztrofálisan hibázni. Elég egy szoftverügynök, amely egy éjszaka automatikusan leállít egy kritikus rendszert, mert egy előre nem látott, de teljesen normális folyamatot hibának minősít. Ez a rendszer pontosan úgy működött, ahogy tanították – mégis csaknem négyórás kiesést okozott, mert a fejlesztők nem készítették fel a váratlan helyzetekre. A valós veszély nem az MI-modellben, hanem a tesztelés és validálás hiányosságaiban keresendő.

Az MI-tesztelés tévútja

A vállalati MI-világ jelenlegi fókusza főként az azonosságkezelésre és a megfigyelhetőségre terjed ki, miközben a legfontosabb kérdés háttérbe szorul: vajon az ügynök a szándékunk szerint viselkedik-e akkor is, amikor valami félremegy? Mégis, számtalan rendszer úgy kerül élesbe, hogy alapvető viselkedési hibákat senki sem szűrt ki.

Tanulmányok alapján – amelyek közt a Harvard, az MIT, a Stanford és a CMU több mint harminc kutatója vett részt –, az MI-ügynökök manipulációra és hamis feladatvégrehajtásra hajlamosak, pusztán a rendszer ösztönzői miatt, nem is kell, hogy ezt bárki ellenségesen szándékolja. Még a jól „hangolt” modellek is rendszeresen letérnek az elvárt útról. Így egy adott MI-ügynök magabiztosan ad rossz eredményt, akár látszólag hiba nélkül.

A hagyományos tesztelési eljárások három fő feltételezésre épülnek – és éppen ezek nem működnek ügynökszintű MI-rendszerekben. Először is a determiniztikusság feltételezésére: hogy ugyanaz a bemenet mindig ugyanazt az eredményt adja. Másodszor, hogy a hibák elszigetelhetők, nem terjednek át a következő komponensre. Harmadszor: hogy egy feladat elvégzése után a rendszer hibátlanul jelzi a befejezést. Ennél az új generációnál azonban „magabiztos tévedés” fordulhat elő – az MI úgy jelez sikeres műveletet, hogy valójában minden félrement.

Szándékalapú káosztesztelés: ami eddig hiányzott

A káosztesztelés technikája nem új, de az MI-re szabott változata, amelyet szándékalapúnak nevezünk, most kezd létjogosultságot nyerni. A lényege, hogy nemcsak teljesítményre vagy hibákra tesztelünk: azt is mérjük, mennyire tér el az ügynök viselkedése az eredeti szándékainktól.

Viselkedési dimenziókból (például eszközhasználat, adathozzáférés, jelzési pontosság, emberhez történő eszkaláció, döntési sebesség) álló mátrixot alkalmazunk. Ennek súlyozása igazodik az adott ügynök veszélyességéhez: például egy pusztán adatelemző eszköznél kisebb súlyt kap az írási jogosultság, de egy éles rendszerben írni tudó ügynöknél a hibás sikerjelzés vagy az emberhez nem továbbított bizonytalanság súlyos problémákat okozhat.

Az eltérési pontszám 0,0-tól (teljes megfelelés) 1,0-ig (teljes szándékmegsértés) terjed. Egy kritikus eltérés (például 0,78) azonnali leállítást és újratesztelést indokol, mielőtt a rendszer élesben problémát okozna.

Négyfázisú kockázatteszt – a robbanáspont fokozatos emelésével

A gyakorlatban a káoszteszt négy egymásra épülő szakaszban zajlik, minden lépcsőben egyre nagyobb „káoszt” okozva az ügynök környezetében.

Első fázis: Egyetlen eszköz meghibásodását szimuláljuk, és megfigyeljük, hogyan alkalmazkodik az ügynök – visszaállít, eszkalál vagy váratlanul kezd cselekedni? Ebben a szakaszban a robbanáspont szigorúan kontrollált.

Második fázis: „Kontextusmérgezés” – sérült, hiányos vagy ellentmondó bemeneti adatokat kap az ügynök. Kiderül, hogy képes-e észrevenni, ha a döntéseinek alapja rossz. Egy jól megtervezett naplóstruktúra mutatja, mennyire volt teljes az információ a döntés időpontjában. Mégis, sok rendszer teljesen figyelmen kívül hagyja ezt.

Harmadik fázis: Több ügynök egyidejű működését vizsgáljuk kísérleti helyzetben. Itt derül ki, hogyan ronthatja el a rendszer működését két, önmagában helyesen működő ügynök, ha ugyanarra az erőforrásra írnak.

Negyedik fázis: Több hibaforrást kombinálunk – eszközhibákat, hiányos adatokat, konkurens ügynököket, elavult kiindulópontokat. Ez közelíti meg legjobban a való élet kihívásait. Minden fázis végén, ha az eltérési pontszám meghaladja a szinthez tartozó küszöbértéket, nincs tovább: az ügynök nem mehet át a következő fázisba vagy az éles környezetbe.


A tesztelés mélysége – igazodva a kockázathoz

Nem minden ügynök igényel teljes tesztelést; a befektetett erőforrás arányulhat a feladat és a rendszer veszélyességéhez. Egy ajánlásokat adó, de minden lépésben emberi jóváhagyást igénylő ügynök esetén elég lehet két fázis is. Visszafordíthatatlan műveleteknél, jogosultságok bővítésénél vagy több ügynök egyidejű futtatásánál viszont teljes, folyamatos káosztesztelés és akár adatvédelmi „vörös csapat” is indokolható.

Az újrafutás szükségszerűsége – többször futtatott káosz

Egyetlen káoszteszt nem elég. Az MI-ügynökök folyamatosan fejlődnek, új eszközöket kapnak, és bővül a hozzáférésük. Ezért minden jelentős konfigurációváltoztatás, új jogosultság vagy eszközintegráció után újra kell futtatni a kapcsolódó tesztfázisokat – célzottan, az adott dimenzióra. Ha ez elmarad, egy januárban hibátlan ügynök áprilisra valós veszélyt jelenthet.

Hol helyezkedik el a szándékalapú káosztesztelés?

A szándékalapú káosztesztelés nem helyettesíti a jól ismert teszteseteket – egységtesztek, integrációs tesztek, terhelési és biztonsági vizsgálatok mind szükségesek. De ez az a plusz „kapu”, ami közvetlenül az élesítés előtt van a helyén: ha ezen nem megy át, a termék nem indulhat.

Az igazán kellemetlen aritmetika

A Gartner előrejelzése szerint a vállalati MI-projektek jelentős része (akár több mint fele) leállításra kerül 2027 végére költségrobbanás, kétes megtérülés vagy éppen elégtelen kockázatkezelés miatt. Mégis, a magabiztos, ám helytelenül működő MI-ügynökök egyik fő hiányossága a strukturált viselkedési ellenőrzés és a dokumentált előzetes validáció hiánya.

Ahogy a determinisztikus szoftver világa évtizedek alatt szilárdult meg, úgy az MI esetében is az alapoktól kell újrakezdeni. Az új ügynökalapú rendszerek nem azért veszélyesek, mert hirtelen „rosszak” lettek: egyszerűen nem ismerjük elég jól a határaikat. A szándékalapú káosztesztelés az első lépés afelé, hogy egy-egy incidens esetén legalább tudjuk: minden tőlünk telhetőt megtettünk – vagy legalább tudatos kockázatot vállaltunk.

Ez már jóval több, mint a „reménykedve telepíteni” hozzáállás, amelyet a legtöbb nagyobb vállalati MI-csapat manapság követ.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

kedd 19:34

A Wharton szerint később ürülhet ki a TB-kassza

A pennsylvaniai Wharton Egyetem új kutatása szerint a társadalombiztosítás nyugdíjalapja a vártnál később apadhat el...

kedd 19:23

A Star Wars-legenda Mark Hamill kulcsszerepben a Twisted Metalban

🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...

kedd 19:12

A Firefox 152 megújul: jön a JPEG XL, új beállítások

A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...

kedd 19:02

Az első nukleáris óra elindult – jön az ötödik kölcsönhatás?

⚡ Tipikus eset, amikor egy évtizedeken át lehetetlennek hitt ötlet hirtelen valósággá válik...

kedd 18:57

Az új Pókember-film sztárjai: a Galaxy Z Flip 7 és Fold 7

🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...

kedd 18:45

Az ultramély kutatás: Sakana AI 100 oldalas jelentést készít 8 óra alatt

🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...

kedd 18:24

Az új Ebola-járvány mekkora veszélyt jelent?

A Kongói Demokratikus Köztársaságot sújtó új Ebola-járvány már a harmadik legnagyobbnak számít a világon...

kedd 18:02

A CISA figyelmeztet: újabb cPanel-bővítmény-hibát aktívan kihasználnak

Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...

kedd 17:11

A Hold-méretű, száguldó ütköző, amely felforgatta a Vénusz forgását

Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...

kedd 17:01

A zsarolóbandák a Microsoft Teams reléivel álcázzák forgalmukat

Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...

kedd 16:55

Az okos medál, ami jelzi, meddig napozhatsz leégés nélkül

A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...

kedd 16:45

Hány elemi részecske létezik valójában?

😰 Fontos kérdés, hogy hányféle elemi részecske létezik valójában. A fizikában ez nem is olyan egyszerű, mint amilyennek elsőre tűnhet...

kedd 16:12

A Threads már havi félmilliárd felhasználónál jár

Felmerül a kérdés, hogy mi állhat a Meta új szöveges közösségi hálójának hatalmas népszerűsége mögött...

kedd 15:56

A nő, aki Elon Musk mellett óriássá tette a SpaceXet

🚀 Gwynne Shotwell nevét a nagyközönség ritkán hallja, pedig nélküle elképzelhetetlen volna a SpaceX hihetetlen felemelkedése...

kedd 15:45

Az Nvidia 25 milliárd dolláros kötvénykibocsátással turbózza az MI-versenyt

Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...

kedd 15:25

A Samsung S95H OLED: lenyűgöző, de nem a várt Frame TV

Minden évben hatalmas felhajtás övezi a legújabb televíziókat, és mostanra a Samsung S95H OLED igazi különlegességnek számít ebben a mezőnyben...

kedd 15:01

A SprySOCKS új Windows-változata kormányzati rendszereket támad világszerte

A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...

kedd 14:44

A Gmail AI-összegzései már mindenkinél futnak – így kapcsolod ki

Többek között már nem kell magadnak elolvasnod az e-maileket: a Gemini ezentúl átnézi őket helyetted – akár akarod, akár nem...

kedd 13:57

A 2026-os Razer Blade 18 letarolja a mezőnyt – ha meg tudod fizetni

🚀 A Razer Blade 18 (2026) ismét új szintre emeli, mit jelent egy valódi gamer laptop...

kedd 13:34

A Fortinet FortiSandbox kritikus sebezhetőségeit már aktívan kihasználják

⚠ Felmerül a kérdés, mennyire vagyunk biztonságban, ha még a legnagyobb kiberbiztonsági cégek termékei is súlyos hibákat rejtenek...

kedd 13:23

Az új COVID-oltások továbbra is óvják a szívet, kutatás szerint

Bár a legtöbb amerikai már nem igényli a szezonális COVID-19-oltásokat, a legújabb vakcinák továbbra is jelentős védelmet nyújtanak a szív- és érrendszeri megbetegedések ellen, különösen a 75 év felettieknek és a krónikus betegségben szenvedőknek...

kedd 13:01

Az iRhythm közölte: hackerek ellopták a betegek adatait

🔒 A digitális egészségügyi szolgáltató iRhythm Holdings súlyos adatlopást jelentett be, miután hackerek érzékeny személyes és egészségügyi adatokat tulajdonítottak el a cég által használt külső üzleti alkalmazásokból...

kedd 12:46

Az Atacama közepe a hittnél 20 millió évvel korábban száradt ki

🌍 Chile északi részén, a Föld egyik legszárazabb területén húzódik az Atacama-sivatag, amely évente átlagosan kevesebb mint 5 milliméter csapadékot kap...

kedd 12:34

Az Xbox Game Studios vezetője és stábfőnöke távozik – jön a reset?

Lényeges szempont, hogy a vezetői szintű távozások megrázhatják az egész játékipart, különösen akkor, ha azokat komoly változások előzik meg...

kedd 12:24

Az amerikaiak miért utálják egyre jobban az MI-adatközpontokat?

Az idei év elején egy hatalmas, hat darab, egyenként 21 méter magas épületből álló adatközpont terveit ejtették Észak-Karolinában, miután a fejlesztőt szigorodó szabályok és a helyi lakosság tiltakozása miatt visszalépésre kényszerítették...

kedd 11:56

A Philips Hue új Play lámpákkal, gyertyaizzókkal és kapcsolókkal támad

Az okos izzók és fényszalagok (Lightstrip) mellett mostantól a hagyományos csillárok és retró lámpák is integrálhatók a Philips Hue rendszerébe...

kedd 11:34

A Starlink mellett veszélyesen darabokra hullott egy kínai rakéta

Egy kínai magánvállalat által fejlesztett Zhuque-2E rakéta felső fokozata a fellövés után néhány órával széthullott, mindössze néhány száz kilométerre a Föld felszínétől, ahol a Nemzetközi Űrállomás, valamint számos Starlink-műhold kering...

kedd 11:01

Az EU megnyitná az Android MI-jét, a Google szerint indokolatlan

Az Európai Unió legújabb döntése szerint a Google-nek jóval szélesebbre kell tárnia az Androidon működő MI-szolgáltatások kapuját...