2026. 04. 01., 11:13

Az MI strukturált kérdései átírják a kódellenőrzés szabályait

Az MI strukturált kérdései átírják a kódellenőrzés szabályait
Első pillantásra úgy tűnt, hogy a mesterségesintelligencia-ügynökökkel végzett kódellenőrzés szinte megoldhatatlan probléma: minden egyes kódtárhoz költséges és bonyolult szimulált futtatási környezetet (sandboxot) kell felépíteni, emiatt folyamatosan nőnek az infrastrukturális terhek. Egyre több fejlesztő kerüli ezt azzal, hogy a kódot nyelvi MI-modellekkel vizsgáltatja, amelyek futtatás nélkül, pusztán olvasással próbálnak hibákat keresni és javításokat ellenőrizni. Ez azonban gyakran vezet megalapozatlan találgatásokhoz vagy egyszerűen blöfföléshez, amikor az MI úgy ítél meg egy problémát, hogy valójában nincs is elegendő bizonyítéka rá.

A strukturált kérdezéstechnika lényege

A Meta szakértői emiatt vezettek be egy strukturált kérdezéstechnikát. Ebben a megoldásban az MI logikai tanúsítványokat tölt ki: világosan megfogalmazza az előfeltevéseit, lépésről lépésre követi az adott függvényhívásokat, és csak konkrét, bizonyítható információk alapján von le végkövetkeztetéseket. Nem lehet egyszerűen rábökni, hogy ez vagy az a sor okozza a hibát, hanem minden lépést igazolni kell – így jelentősen nő az elemzés pontossága, és drasztikusan csökken a téves hibakeresések, félreértések száma.

Ennek eredményeként megbízhatóbb, futtatás nélküli forráskód-elemzés valósulhat meg. A strukturált formátum arra „kényszeríti” az MI-t, hogy részletesen átböngéssze a forráskódot, és összegyűjtse a bizonyítékokat, mielőtt döntést hozna.

Az ügynöki kódértelmezés új szintje

Az úgynevezett ügynöki kódértelmezés abban különleges, hogy az MI-ügynök képes egy teljes kódtárat átlátni, összefüggéseket, függőségeket visszakövetni, hogy ténylegesen mélyen értelmezze a kód működését – mindezt kód futtatása nélkül. Ez elengedhetetlen például vállalati szintű hibavadászatnál vagy patch-ellenőrzésnél, ahol gyakori, hogy a releváns információ akár több tucat fájlban szétszórva található.

A jelenlegi megközelítések közül az egyik legelterjedtebb a laza, strukturálatlan értelmezés, amikor az MI egyszerűen csak elmagyarázza a gondolatmenetét, de semmi sem kényszeríti szigorú bizonyítási láncra; emiatt meglehetősen gyakran hoz magabiztos, ám megalapozatlan döntéseket. A másik véglet a formális verifikáció volna, amikor a kódot vagy a gondolatmenetet matematikai nyelvre (például Lean, Coq vagy Datalog) alakítják, hogy gépileg leellenőrizhető legyen. Ez a vállalati gyakorlatban szinte kivitelezhetetlen, mert a valódi kódbázisok komplexitása miatt a programnyelv precíz matematikai leírása gyakorlatilag lehetetlen.

Így működik a fél-formális kérdezéstechnika

A Meta kutatói ezért dolgozták ki a fél-formális, strukturált kérdezési sablonokat. Ezekben az MI-nek minden lépésben expliciten meg kell neveznie a feltételeket, konkrét példákon kell végigkövetnie a függvényhívásokat, és kizárólag bizonyítható tények alapján hozhat döntést. A sablonok logikai tanúsítványként funkcionálnak, így a rendszer rákényszerül minden egyes érintett kódrészt visszakeresni, nem csupán felületes névazonosságokra hagyatkozni. Így sikerül megbízhatóbban kezelni az olyan helyzeteket is, amikor például zavart keltő, hasonló nevű függvények is szerepelnek.


Gyakorlati eredmények: sokkal pontosabb ellenőrzések

A fél-formális eljárást három szoftvermérnöki feladaton tesztelték: patch-ek egyenértékűségének vizsgálata, a hiba helyének bemérése és komplex kódbázison végzett kérdés–válasz feladat. Patch-eknél 78%-ról 88%-ra ugrott a pontosság a nehezített példákon. A valós, ügynök által generált patch-eknél a Sonnet-4.5 modell 93%-os ellenőrzési pontosságot ért el ezzel a módszerrel, szemben az általános, strukturálatlan módszer 86%-os és az egyszerű szövegösszehasonlító (difflib) 73%-os pontosságával.

Egy tipikus, valós példában a Django-repozitórium két patch-e közül csak az egyik tartalmazott egy könyvtári format() függvényt, amely felüldefiniálta a Python beépített függvényét – emiatt a két patch valójában eltérően működött, amit csak a strukturált kérdezési sablon alapján fedezett fel az MI.

Korlátok és tudnivalók

A strukturált kérdezés jelentősen javítja az MI döntéseinek megbízhatóságát, de nagyobb számítási igénnyel jár. Patch-ellenőrzésnél például átlagosan 2,8-szor több lépést igényel, mint a laza kérdezés. Emellett bizonyos, nagyon jól teljesítő modelleknél nem feltétlenül hoz további előrelépést, ha az adott feladatban amúgy is magas a pontosság.

Előfordul az is, hogy a rendszer túlságosan hosszan, formálisan felépített, de félrevezető bizonyítási láncot hoz létre. Ha valahol hiányzik egy lényeges információ, akkor is magabiztosan – de hibásan – fog dönteni. Harmadik féltől származó könyvtárak elemzésénél, ahol a kód nem elérhető, a megoldás visszacsúszik találgatásba.

Mindezek ellenére a fél-formális kérdezés jelentősen csökkenti a vak találgatást és az úgynevezett MI-hallucinációk arányát.

Miért éri meg bevezetni?

A fél-formális kérdezési sablon azonnal használható, nem igényel sem modellfinomhangolást, sem speciális környezetet, csupán a jól megírt kérdezési sablont kell beilleszteni az MI-ügynök működésébe. Bár számítási időben drágább, az általa elért megbízhatóság a legtöbb kódelemzési feladaton bőven behozza a költségeket.

A Meta közzétette a kérdezéssablonokat, így egyszerűen implementálhatók bármilyen alkalmazásba. Bár sokszor temetik a prompt engineeringet, ez a példa jól mutatja, hogy a jól megírt, strukturált kérdésekből még mindig rengeteg pluszt lehet kihozni a nyelvi MI-modellekből.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

APP
szerda 09:11

APPok, Amik Ingyenesek MA, 6/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Planetary Hours + Widget (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) ImgRef (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) CrestWall – 4K Wallpapers...

kedd 19:34

A Wharton szerint később ürülhet ki a TB-kassza

A pennsylvaniai Wharton Egyetem új kutatása szerint a társadalombiztosítás nyugdíjalapja a vártnál később apadhat el...

kedd 19:23

A Star Wars-legenda Mark Hamill kulcsszerepben a Twisted Metalban

🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...

kedd 19:12

A Firefox 152 megújul: jön a JPEG XL, új beállítások

A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...

kedd 19:02

Az első nukleáris óra elindult – jön az ötödik kölcsönhatás?

⚡ Tipikus eset, amikor egy évtizedeken át lehetetlennek hitt ötlet hirtelen valósággá válik...

kedd 18:57

Az új Pókember-film sztárjai: a Galaxy Z Flip 7 és Fold 7

🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...

kedd 18:45

Az ultramély kutatás: Sakana AI 100 oldalas jelentést készít 8 óra alatt

🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...

kedd 18:24

Az új Ebola-járvány mekkora veszélyt jelent?

A Kongói Demokratikus Köztársaságot sújtó új Ebola-járvány már a harmadik legnagyobbnak számít a világon...

kedd 18:02

A CISA figyelmeztet: újabb cPanel-bővítmény-hibát aktívan kihasználnak

Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...

kedd 17:11

A Hold-méretű, száguldó ütköző, amely felforgatta a Vénusz forgását

Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...

kedd 17:01

A zsarolóbandák a Microsoft Teams reléivel álcázzák forgalmukat

Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...

kedd 16:55

Az okos medál, ami jelzi, meddig napozhatsz leégés nélkül

A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...

kedd 16:45

Hány elemi részecske létezik valójában?

😰 Fontos kérdés, hogy hányféle elemi részecske létezik valójában. A fizikában ez nem is olyan egyszerű, mint amilyennek elsőre tűnhet...

kedd 16:12

A Threads már havi félmilliárd felhasználónál jár

Felmerül a kérdés, hogy mi állhat a Meta új szöveges közösségi hálójának hatalmas népszerűsége mögött...

kedd 15:56

A nő, aki Elon Musk mellett óriássá tette a SpaceXet

🚀 Gwynne Shotwell nevét a nagyközönség ritkán hallja, pedig nélküle elképzelhetetlen volna a SpaceX hihetetlen felemelkedése...

kedd 15:45

Az Nvidia 25 milliárd dolláros kötvénykibocsátással turbózza az MI-versenyt

Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...

kedd 15:25

A Samsung S95H OLED: lenyűgöző, de nem a várt Frame TV

Minden évben hatalmas felhajtás övezi a legújabb televíziókat, és mostanra a Samsung S95H OLED igazi különlegességnek számít ebben a mezőnyben...

kedd 15:01

A SprySOCKS új Windows-változata kormányzati rendszereket támad világszerte

A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...

kedd 14:44

A Gmail AI-összegzései már mindenkinél futnak – így kapcsolod ki

Többek között már nem kell magadnak elolvasnod az e-maileket: a Gemini ezentúl átnézi őket helyetted – akár akarod, akár nem...

kedd 13:57

A 2026-os Razer Blade 18 letarolja a mezőnyt – ha meg tudod fizetni

🚀 A Razer Blade 18 (2026) ismét új szintre emeli, mit jelent egy valódi gamer laptop...

kedd 13:34

A Fortinet FortiSandbox kritikus sebezhetőségeit már aktívan kihasználják

⚠ Felmerül a kérdés, mennyire vagyunk biztonságban, ha még a legnagyobb kiberbiztonsági cégek termékei is súlyos hibákat rejtenek...

kedd 13:23

Az új COVID-oltások továbbra is óvják a szívet, kutatás szerint

Bár a legtöbb amerikai már nem igényli a szezonális COVID-19-oltásokat, a legújabb vakcinák továbbra is jelentős védelmet nyújtanak a szív- és érrendszeri megbetegedések ellen, különösen a 75 év felettieknek és a krónikus betegségben szenvedőknek...

kedd 13:01

Az iRhythm közölte: hackerek ellopták a betegek adatait

🔒 A digitális egészségügyi szolgáltató iRhythm Holdings súlyos adatlopást jelentett be, miután hackerek érzékeny személyes és egészségügyi adatokat tulajdonítottak el a cég által használt külső üzleti alkalmazásokból...

kedd 12:46

Az Atacama közepe a hittnél 20 millió évvel korábban száradt ki

🌍 Chile északi részén, a Föld egyik legszárazabb területén húzódik az Atacama-sivatag, amely évente átlagosan kevesebb mint 5 milliméter csapadékot kap...

kedd 12:34

Az Xbox Game Studios vezetője és stábfőnöke távozik – jön a reset?

Lényeges szempont, hogy a vezetői szintű távozások megrázhatják az egész játékipart, különösen akkor, ha azokat komoly változások előzik meg...

kedd 12:24

Az amerikaiak miért utálják egyre jobban az MI-adatközpontokat?

Az idei év elején egy hatalmas, hat darab, egyenként 21 méter magas épületből álló adatközpont terveit ejtették Észak-Karolinában, miután a fejlesztőt szigorodó szabályok és a helyi lakosság tiltakozása miatt visszalépésre kényszerítették...

kedd 11:56

A Philips Hue új Play lámpákkal, gyertyaizzókkal és kapcsolókkal támad

Az okos izzók és fényszalagok (Lightstrip) mellett mostantól a hagyományos csillárok és retró lámpák is integrálhatók a Philips Hue rendszerébe...

kedd 11:34

A Starlink mellett veszélyesen darabokra hullott egy kínai rakéta

Egy kínai magánvállalat által fejlesztett Zhuque-2E rakéta felső fokozata a fellövés után néhány órával széthullott, mindössze néhány száz kilométerre a Föld felszínétől, ahol a Nemzetközi Űrállomás, valamint számos Starlink-műhold kering...