2025. 03. 03., 11:30

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek
Meglepően gyakori panasz azoktól a fejlesztőktől, akik már kipróbálták a nyelvi modelleket (LLM) kódírásra, hogy hallucinációkba ütköztek – általában olyan funkciókat vagy akár teljes szoftverkönyvtárakat talál ki a modell, amelyek nem léteznek – és ez azonnal lerombolta a bizalmukat az LLM-ekben mint kódírási eszközökben. Hogyan használhatná bárki is hatékonyan ezeket az eszközöket, ha olyan funkciókat találnak ki, amelyek nem léteznek? A kódban előforduló hallucinációk valójában a legkevésbé káros hallucinációk, amelyekkel egy modellnél találkozhatsz.

A valódi veszély máshol rejlik

Az LLM-ek kódírásra való használatának igazi kockázata az, hogy olyan hibákat követhetnek el, amelyeket nem azonnal észlel a nyelvi fordító vagy értelmező. És ezek folyamatosan előfordulnak!

Abban a pillanatban, amikor futtatod az LLM által generált kódot, bármilyen hallucinált metódus azonnal nyilvánvalóvá válik: hibaüzenetet kapsz. Ezt magad is kijavíthatod, vagy visszatáplálhatod a hibaüzenetet az LLM-be, és figyelheted, ahogy korrigálja önmagát.

Hasonlítsd ezt össze a hagyományos prózában előforduló hallucinációkkal, ahol kritikus szemre, erős intuícióra és jól fejlett tényellenőrzési készségekre van szükséged, hogy elkerüld a helytelen és a hírnevedre közvetlenül káros információk megosztását.

Ingyenes tényellenőrzés a kódban

A kóddal ingyenesen kapsz egy hatékony tényellenőrzési formát. Csak futtasd a kódot, és nézd meg, működik-e. A hallucinált funkciók olyan apró akadályok, hogy amikor az emberek panaszkodnak rájuk, feltételezhető, minimális időt töltöttek azzal, hogy megtanulják, hogyan használják hatékonyan ezeket a rendszereket – az első akadálynál feladták.

Miért utasítják el egyesek az MI-t ilyen gyorsan?

Kissé Cinikusan azt is mondhatnánk, hogy talán csak egy okot kerestek a technológia elutasítására, és az elsőnél lecsaptak rá.

Esetleg senki sem figyelmeztette őket, hogy sok munkát kell befektetni ahhoz, hogy megtanulják, hogyan érhetnek el jó eredményeket ezekkel a rendszerekkel.


A kézi tesztelés nélkülözhetetlen

Csak mert a kód jónak tűnik és hiba nélkül fut, még nem jelenti azt, hogy valóban a megfelelő dolgot csinálja. Semmilyen alapos kódfelülvizsgálat – vagy akár átfogó automatizált tesztek – sem bizonyítják meggyőzően, hogy a kód valóban a helyes dolgot teszi. Magadnak kell futtatnod! Annak bizonyítása, hogy a kód működik, a te feladatod.

Az LLM-kód általában fantasztikusan néz ki: jó változónevek, meggyőző megjegyzések, világos típusannotációk és logikus struktúra. Ez hamis biztonságérzetbe ringathat, ugyanúgy, ahogy egy nyelvtanilag helyes és magabiztos válasz a ChatGPT-től arra csábíthat, hogy kihagyd a tényellenőrzést vagy a szkeptikus szemlélet alkalmazását.

Hogyan kerüljük el a csapdákat?

A problémák elkerülésének módja ugyanaz, mint ahogy elkerülöd a problémákat más emberek által írt kódban, amelyet felülvizsgálsz, vagy a saját kódodban: aktívan tesztelned kell azt a kódot. Kiváló manuális minőségellenőrzési készségekkel kell rendelkezned.

A programozás általános szabálya, hogy soha ne bízz egyetlen kódrészletben sem, amíg nem láttad saját szemeddel működni – vagy, ami még jobb, nem láttad hibázni, majd kijavítottad.

Tippek a hallucinációk csökkentésére

Ha valóban hallucinált részletek áradatát tapasztalod az LLM-ek által neked készített kódban, számos dolgot tehetsz ellene.

Próbálj ki különböző modelleket. Lehet, hogy egy másik modellnek jobb a tanítási adathalmaza a választott platformodhoz. Jelenlegi a gondolkodás funkcióval ellátott Claude 3.7 Sonnet, az OpenAI o3-mini-high és a GPT-4o Code Interpreter a közönség kedvencek.

Tanuld meg, hogyan használd a kontextust. Ha egy LLM nem ismer egy adott könyvtárat, gyakran orvosolhatod ezt néhány tucat sornyi példakód beillesztésével. Az LLM-ek hihetetlenül jók az utánzásban és a minták gyors felismerésében nagyon korlátozott példák alapján. A modern modellek egyre nagyobb kontextusablakokkal rendelkeznek – a Claude új funkciója, hogy teljes repókat enged betölteni.

 

 

  • Te hogy kezelnéd, ha egy LLM által generált kódban hibát találnál, és mi lenne a következő lépésed?
  • Mit tennél, ha olyan eszközt használnál, ami többször is hallucinált metódusokat generál?


Legfrissebb posztok

hétfő 21:56

A nagy vita: kell-e megmosni a rizst főzés előtt?

🍚 A rizs több milliárd ember mindennapi tápláléka világszerte, elkészítése kapcsán azonban rengetegen vitáznak: meg kell-e mosni főzés előtt, vagy felesleges időpazarlás?..

hétfő 21:34

Az ADHD felismerése nem erősségünk – az MI-é annál inkább

A figyelemhiányos hiperaktivitás-zavar, vagyis az ADHD hivatalos diagnózisa sokak számára elérhetetlen: az időhiány, a költségek, a kevés elérhető szakorvos és az általános tájékozatlanság mind nehezítik az utat...

hétfő 21:23

A netet elárasztották a botok – mit jelent ez nekünk?

Alig néhány év alatt gyökeresen megváltozott az internet felhasználói összetétele. Már nem emberek, hanem automatizált rendszerek bonyolítják le a webes kérések többségét – derül ki a Cloudflare Radar mérőrendszerének statisztikáiból, amelyek szerint világszerte a forgalom 57,4%-át úgynevezett agentikus, vagyis parancsokra dolgozó MI-botok generálják, míg a valódi emberek csak 42,6%-ot képviselnek...

hétfő 21:12

Az Xbox leépít, a Microsoft szerint kevés pénz jön a játékokból

A Microsoft vezetősége szerint a videójátékos üzletág egyik legnagyobb nehézsége, hogy nem termel elég bevételt...

hétfő 21:01

A kínai hackerek feltörték a REDCap szervereket, orvosi kutatási adatokat loptak

🔒 Jó példa erre, hogy Észak-Amerika egyik orvosi kutatóintézetének gépeit kínai kötődésű hackerek támadták meg, és hónapokon át észrevétlenül lopták az érzékeny adatokat...

hétfő 20:34

Az amerikai szigor miatt turbófokozatba kapcsol az európai technológiai szuverenitás

A világ egyik legnagyobb MI-fejlesztője, az Anthropic váratlanul leállította két fejlett kiberbiztonsági modellje, a Mythos 5 és a Fable 5 elérhetőségét az egész világon, miután amerikai kormányzati előírás erre kötelezte...

hétfő 20:12

Az új támadás egykattintásos adatlopóvá tette a Microsoft 365 Copilotot

Felmerül a kérdés, hogy mennyire bízhatunk meg a legmodernebb vállalati megoldásokban, amikor egy újonnan felfedezett, SearchLeak névre keresztelt sebezhetőség-sorozat lehetővé tette, hogy támadók különleges URL-ek segítségével egyetlen kattintással szerezzenek hozzáférést levelekhez, jelszavakhoz vagy akár SharePoint- és OneDrive-fájlokhoz a Microsoft 365 Copilot Enterprise rendszeren keresztül...

hétfő 20:01

Az Apple nyerő húzása lehet az iOS 27 a régi iPhone-okra

Ilyen eset például, amikor az Apple az új iOS 27-et a 2019-ben bemutatott iPhone 11 sorozattól kezdődően teszi elérhetővé...

hétfő 19:56

Az FBI figyelmeztet: futárok gyűjtik be a kriptós csalások pénzét

💸 Megfigyelhető, hogy a kriptobefektetési csalások új hullámában a bűnözők már futárokat is bevetnek a pénz megszerzésére...

hétfő 19:45

Az afrikai holdkőzet egy ősi, holdfelszínt olvasztó ütközést sejtet

🌚 Egy Észak-Afrikában talált holdi meteorit új megvilágításba helyezi a Hold ősi múltját...

hétfő 19:33

A nagy áttekintés szerint az időseknek alig használ a kalcium és D-vitamin

🙂 Különösen igaz ez akkor, ha az egészségügyi ajánlásokat követjük, hiszen világszerte emberek milliói szednek kalcium- és D-vitamin-készítményeket abban a reményben, hogy ezzel csökkentik a csonttörések és az esések kockázatát...

hétfő 19:22

A NASA óriási óceáni melegfoltot észlelt, jöhet az El Niño

🌊 A NASA műholdjai a Dél-Amerika partjaihoz tartó hatalmas melegvíztömeget figyeltek meg, amely komoly eséllyel az El Niño kialakulását jelzi...

hétfő 19:12

Az AYANEO tenyérnyi Game Boy-mása újra ringbe száll

🎮 A zsebben is elférő AYANEO Pocket Micro az utóbbi évek egyik legjobb kézi konzolja lett, amely tökéletesen hozza a klasszikus Game Boy Advance hangulatot...

hétfő 19:01

Az emberes SpaceX Mars-küldetés? Ne számítsunk rá ebben az évtizedben

🚀 Érdemes megérteni, hogy a SpaceX, amely a múlt pénteken debütált a Nasdaqon, villámgyorsan 19%-ot emelkedett, ezzel átlépve a 2 billió dolláros (kb...

hétfő 18:56

Az Xboxon felbukkant a „Vedd meg most, fizess később”, kiakadtak a rajongók

💸 Érdemes megvizsgálni, hogy a videojátékokhoz és konzolokhoz kapcsolódó vásárlási lehetőségek hogyan változnak a növekvő árak fényében...

hétfő 18:45

Az utazók pórul járhatnak: megugorhatnak a T‑Mobile külföldi percdíjai

Ha külföldre utazol, általában két lehetőséged van: veszel egy helyi SIM-kártyát, vagy a megszokott szolgáltatód roamingját használod...

hétfő 18:35

Az MI-vel ne csak gyorsabbak, hanem jobbak is legyenek a munkatársak

Képzeld el, pályád elején vagy, és a főnököd megbíz egy kellemetlen feladattal: meg kell írnod egy e-mailt egy fontos ügyfélnek, amelyben megmagyarázod a projekt késését...

hétfő 18:24

Az óriásgát Tibetben: Kína a természetet próbálja megszelídíteni

🚦 Magasan, a 4500 méterrel a tengerszint felett fekvő Tibeti-fennsík évszázadok óta Ázsia víztornya...

hétfő 17:45

A válogatós cégek MI-tudást követelnek: bajban az informatikusok

A kaliforniai techszektorban dolgozók tömegei még mindig abban reménykednek, hogy a munkaerőpiac végre talpra áll, de valójában egyre nehezebb új állást találni...

hétfő 17:34

A KFC visszavág: csont nélküli csirke és új italok

Az ikonikus gyorsétteremlánc most új stratégiához nyúl: teljesen átalakítja kínálatát, hangsúlyt helyezve a csont nélküli csirkére, különleges szószokra és izgalmas, élményalapú vendéglátásra...

hétfő 17:23

A Tejútrendszer szívében hatalmas szupernóva lehetséges maradványaira bukkant a NASA

💫 26 ezer fényévnyi távolságból figyelte meg a NASA Chandra Röntgen Obszervatóriuma a Tejútrendszer egyik leglátványosabb jelenségét...

hétfő 17:01

Az egyetemisták tömegesen felejtenek el olvasni?

Egy irodalmat és íráskészséget oktató egyetemi tanár, Tyler Jagt meglepő tapasztalatairól számolt be: egyik diákja sem tudott végigolvasni egy húszoldalas, kötelező tanulmányt, amelyet ő maga még egy évtizede egyetemistaként gond nélkül elolvasott...

hétfő 16:23

Az MI-felügyelőkre vadásznak a cégek: berobban a brit munkaerőpiac

Ami először apróságnak tűnt, mára gyökeresen átalakítja a brit munkaerőpiacot: a mesterséges intelligencia iránti kereslet ugrásszerűen megnőtt az utóbbi évben...

hétfő 16:12

A rekord egynapos esetszámugrás az Ebola-járványban Kongóban, egy hónappal a kitörés után

😷 Kongóban az Ebola-járvány minden eddiginél gyorsabban terjed, miközben az egészségügyi hatóságok igyekeznek lépést tartani az egyre növekvő esetszámmal...

hétfő 16:01

Az Antarktisz alatt több száz rejtett földrengést fedeztek fel – szokatlan helyen

Senki sem várta volna, hogy az Antarktisz rejtett, rendszeres földrengésekkel lepi meg a tudósokat...

hétfő 15:56

A Google lebuktatta a következő Pixel Dropot: képernyőreakciók, fizetős extrák

Tipikus eset, amikor egy vállalat maga szivárogtatja ki a nagy újításai részleteit, így mire a hivatalos bejelentés megtörténik, már mindenki tudja, mire számíthat...

hétfő 15:45

A SpaceX óriási tőzsdei bevezetése mindent a feje tetejére állíthat

Különösen igaz ez akkor, ha a befektetők már hónapok óta várnak valami nagy visszatérésre a tőzsdén...

hétfő 15:34

A Google AI-módja mostantól helyetted tartja számon az információkat

📝 A Google újabb nagy dobással jelentkezik: már valóság az a funkció, amelyben személyes digitális ügynököd veszi le a válladról az állandó keresgélést és a friss információkra való vadászatot...

hétfő 15:23

Az AMD Radeon RX 9070 XT váratlanul tarol a Steam-felmérésben

🔥 Az AMD új Radeon RX 9070 XT videókártyája váratlanul népszerűvé vált a gamerek körében: a legfrissebb Steam hardverfelmérés szerint májusban már 1,33%-os részesedést szerzett a felhasználók között, ezzel az első helyre került az AMD GPU-k között...