2025. 03. 03., 11:30

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek
Meglepően gyakori panasz azoktól a fejlesztőktől, akik már kipróbálták a nyelvi modelleket (LLM) kódírásra, hogy hallucinációkba ütköztek – általában olyan funkciókat vagy akár teljes szoftverkönyvtárakat talál ki a modell, amelyek nem léteznek – és ez azonnal lerombolta a bizalmukat az LLM-ekben mint kódírási eszközökben. Hogyan használhatná bárki is hatékonyan ezeket az eszközöket, ha olyan funkciókat találnak ki, amelyek nem léteznek? A kódban előforduló hallucinációk valójában a legkevésbé káros hallucinációk, amelyekkel egy modellnél találkozhatsz.

A valódi veszély máshol rejlik

Az LLM-ek kódírásra való használatának igazi kockázata az, hogy olyan hibákat követhetnek el, amelyeket nem azonnal észlel a nyelvi fordító vagy értelmező. És ezek folyamatosan előfordulnak!

Abban a pillanatban, amikor futtatod az LLM által generált kódot, bármilyen hallucinált metódus azonnal nyilvánvalóvá válik: hibaüzenetet kapsz. Ezt magad is kijavíthatod, vagy visszatáplálhatod a hibaüzenetet az LLM-be, és figyelheted, ahogy korrigálja önmagát.

Hasonlítsd ezt össze a hagyományos prózában előforduló hallucinációkkal, ahol kritikus szemre, erős intuícióra és jól fejlett tényellenőrzési készségekre van szükséged, hogy elkerüld a helytelen és a hírnevedre közvetlenül káros információk megosztását.

Ingyenes tényellenőrzés a kódban

A kóddal ingyenesen kapsz egy hatékony tényellenőrzési formát. Csak futtasd a kódot, és nézd meg, működik-e. A hallucinált funkciók olyan apró akadályok, hogy amikor az emberek panaszkodnak rájuk, feltételezhető, minimális időt töltöttek azzal, hogy megtanulják, hogyan használják hatékonyan ezeket a rendszereket – az első akadálynál feladták.

Miért utasítják el egyesek az MI-t ilyen gyorsan?

Kissé Cinikusan azt is mondhatnánk, hogy talán csak egy okot kerestek a technológia elutasítására, és az elsőnél lecsaptak rá.

Esetleg senki sem figyelmeztette őket, hogy sok munkát kell befektetni ahhoz, hogy megtanulják, hogyan érhetnek el jó eredményeket ezekkel a rendszerekkel.


A kézi tesztelés nélkülözhetetlen

Csak mert a kód jónak tűnik és hiba nélkül fut, még nem jelenti azt, hogy valóban a megfelelő dolgot csinálja. Semmilyen alapos kódfelülvizsgálat – vagy akár átfogó automatizált tesztek – sem bizonyítják meggyőzően, hogy a kód valóban a helyes dolgot teszi. Magadnak kell futtatnod! Annak bizonyítása, hogy a kód működik, a te feladatod.

Az LLM-kód általában fantasztikusan néz ki: jó változónevek, meggyőző megjegyzések, világos típusannotációk és logikus struktúra. Ez hamis biztonságérzetbe ringathat, ugyanúgy, ahogy egy nyelvtanilag helyes és magabiztos válasz a ChatGPT-től arra csábíthat, hogy kihagyd a tényellenőrzést vagy a szkeptikus szemlélet alkalmazását.

Hogyan kerüljük el a csapdákat?

A problémák elkerülésének módja ugyanaz, mint ahogy elkerülöd a problémákat más emberek által írt kódban, amelyet felülvizsgálsz, vagy a saját kódodban: aktívan tesztelned kell azt a kódot. Kiváló manuális minőségellenőrzési készségekkel kell rendelkezned.

A programozás általános szabálya, hogy soha ne bízz egyetlen kódrészletben sem, amíg nem láttad saját szemeddel működni – vagy, ami még jobb, nem láttad hibázni, majd kijavítottad.

Tippek a hallucinációk csökkentésére

Ha valóban hallucinált részletek áradatát tapasztalod az LLM-ek által neked készített kódban, számos dolgot tehetsz ellene.

Próbálj ki különböző modelleket. Lehet, hogy egy másik modellnek jobb a tanítási adathalmaza a választott platformodhoz. Jelenlegi a gondolkodás funkcióval ellátott Claude 3.7 Sonnet, az OpenAI o3-mini-high és a GPT-4o Code Interpreter a közönség kedvencek.

Tanuld meg, hogyan használd a kontextust. Ha egy LLM nem ismer egy adott könyvtárat, gyakran orvosolhatod ezt néhány tucat sornyi példakód beillesztésével. Az LLM-ek hihetetlenül jók az utánzásban és a minták gyors felismerésében nagyon korlátozott példák alapján. A modern modellek egyre nagyobb kontextusablakokkal rendelkeznek – a Claude új funkciója, hogy teljes repókat enged betölteni.

 

 

  • Te hogy kezelnéd, ha egy LLM által generált kódban hibát találnál, és mi lenne a következő lépésed?
  • Mit tennél, ha olyan eszközt használnál, ami többször is hallucinált metódusokat generál?


Legfrissebb posztok

MA 12:01

Az amerikai saját otthon álma darabokra hullik: nemcsak a fiatalok szorulnak ki

🏠 Az otthonhoz jutás problémája mára már nemcsak a huszon- és harmincéveseket sújtja: egyre több negyvenes, ötvenes, sőt idősebb vásárló is kiszorul a lakáspiacról...

MA 11:45

Az Apple visszahozná a betiltott egészségügyi funkciót

Az Apple Watch véroxigénszint-mérője évek óta jogi viták középpontjában áll. Az okosóra 2020-ban debütált ezzel a forradalmi szenzorral, amely a véroxigénszintet méri...

MA 11:34

A filmiskolás, akiből a kvantumszámítógépek milliárdost csináltak

Christian Weedbrook nevét néhány nap leforgása alatt ismerhette meg a világ: a Xanadu Quantum Technologies vezetőjeként hihetetlen gazdagságra tett szert, miután az MI jövőjét a kvantumszámítógépekhez kötötte...

MA 11:23

Az elképesztő új kamera egy billiómod másodpercet is megörökít

📷 Új szintre lépett a mikroszkopikus világ villámgyors eseményeinek vizsgálata: kínai kutatók egy forradalmian új képrögzítési módszert mutattak be, amellyel hihetetlenül rövid, akár néhányszáz femtoszekundum alatt lezajló folyamatok minden eddiginél részletesebb megfigyelése vált lehetővé...

MA 11:11

Az űr citromcsigája: a Hubble ismét a Trifid-köd bűvöletében

A Hubble űrtávcső idén már 36 éves, és most egy igazán friss, lélegzetelállító képpel ünnepli ezt: a Nyilas (Sagittarius) csillagképben található Trifid-köd legkülönlegesebb alakzata, az űrbéli citromcsiga (Cosmic Sea Lemon) újra lencsevégre került...

MA 11:01

A bosszantó YouTube-értesítéseknek végre vége

A YouTube mobilon mostantól automatikusan némítja azoknak a csatornáknak a push-értesítéseit, amelyeket több mint egy hónapja nem követsz figyelemmel...

MA 10:57

Az amerikai tőke újra lángra lobbantja a Bitcoint

🔥 Lényeges szempont, hogy a bitcoin hónapok óta nem látott tempóban erősödik: 14 egymást követő napon át pozitív a Coinbase-prémium, ami legutóbb tavaly októberben történt, amikor a kriptopénz történelmi csúcson, 126 000 dolláron (kb...

MA 10:50

A mesterséges intelligencia leszámol a Firefox biztonsági hibáival

A Mozilla legfrissebb tesztjei során meglepő eredmények születtek: az Anthropic fejlesztette Mythos Preview MI-modellje 271 biztonsági sérülékenységet azonosított a hamarosan megjelenő Firefox 150 forráskódjában...

MA 10:44

Az OAuth sebezhetőségei: amikor az MI-eszközök kaput nyitnak a hekkereknek

Felmerül a kérdés, hogy miként fordulhat elő, hogy egyetlen alkalmazotti tevékenység elegendő ahhoz, hogy egy egész vállalati infrastruktúrát feltörjék...

MA 10:37

A Honor 600 Pro leveri az iPhone-t – de miért narancssárga?

🟢 A Honor legújabb középkategóriás készüléke, a 600 Pro, már első ránézésre is ismerős lehet – a teljes szélességű, vízszintes kamerasziget, a precízen megmunkált unibody kialakítás és a hátlapi lencsék elrendezése határozottan idézi a prémium telefonok világát...

MA 10:29

A Microsoft Game Pass végre olcsóbb Ausztráliában

🎉 Hatalmas meglepetést okozott a Microsoft azzal, hogy lejjebb vitte a PC- és Xbox Game Pass havidíjait – ezt Ausztráliában már meg is érezhetik a játékosok...

MA 10:22

Az 1300 elavult SharePoint-szerver továbbra is könnyű célpont

🚧 Több mint 1300 Microsoft SharePoint-szerver maradt védtelen egy veszélyes biztonsági rés miatt, amelyet eredetileg nulladik napi támadás során használtak ki, és jelenleg is folyamatosan támadnak...

MA 10:08

A mesterséges intelligencia elszabadult: 271 Firefox-hiba zúdult ránk

A Mozilla most először vetette be az Anthropic-féle Claude Mythos Preview-t, hogy átfésülje a Firefox forráskódját, és hirtelen 271 hibát sikerült feltárni a 150-es verziójában – eddig elképzelhetetlen tempóban...

MA 09:50

A Google új ügynökei már a személyes adataidban vájkálnak

🔎 A Google új szintre emelte kutató MI-ügynökeinek képességeit: a Deep Research és a Deep Research Max egyszerre képesek az internetet és a céges adatbázisokat is átfésülni, miközben átlátható, vizuális jelentéseket készítenek...

MA 09:43

Az anyaság ára: a Zoom és a Deloitte visszavesz a juttatásokból

💸 A vezető tech- és tanácsadó cégek kezdik visszanyesni azokat a juttatásokat, amelyeket eddig irigyelhettünk...

MA 09:36

A csalók réme: okos védelem, nyugalom gondok nélkül

🔒 Az online vásárlások és digitális szolgáltatások világában a csalás elleni védelem és a felhasználói élmény folyamatosan ütközik: ha túl szigorú a biztonság, a valódi ügyfelek is elpártolnak; viszont ha túl engedékeny, akkor megsokszorozódnak a kártékony visszaélések...

MA 09:28

A B–52 mechanikus agya menőbb, mint gondolnád

A 20. század légiflottáinak navigálása nem volt gyerekjáték, főleg a B-52 bombázók esetében...

MA 09:22

Az MI-cég titokban eltüntette az ellopott randifotókat

Hárommillió, az OkCupid oldalról begyűjtött profilfotó törlésére kényszerült a Clarifai nevű MI-vállalat, miután az Egyesült Államok Szövetségi Kereskedelmi Bizottságával (FTC) egyezségre jutott egy hosszan húzódó adatvédelmi ügyben...

MA 09:15

A Motorola Razr 2026 összes titka kiszivárgott

🕵 Erre utal többek között, hogy a közelgő Motorola Razr 2026 szinte minden műszaki részletét felfedte egy hatalmas szivárgás, jóval a hivatalos bejelentés előtt...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/22

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     BoobieTime Breastfeeding Timer (iPhone/iPad)A BoobieTime egy 2017-ben létrehozott digitális alkalmazás, melyet az alapítók első gyermekének születése ihletett...

MA 09:02

Az elektromos korszak hajnalán: rekordot dönt a napenergia

☀️ Az elmúlt évben a globális energiafogyasztás alakulása drámai változást hozott: az elektromos áram iránti kereslet kétszer gyorsabban nőtt, mint az összes energiafogyasztás...

MA 08:59

Az okosóra fokozza az egészségszorongást? Így védd magad!

Az egészségmegőrző okoseszközök egyre népszerűbbek, hiszen ígéretesen segítenek abban, hogy jobban megismerjük testünket és követni tudjuk egészségi állapotunkat...

MA 08:37

Az adatvédelem tűzvonalában: botrány Az Elme Szeme fejlesztőinél

🔒 Egyre nő a feszültség a Build A Rocket Boy (BARB) stúdiónál, ahol ezúttal nem a játék hibái, hanem a dolgozók jogainak megsértése került terítékre...

MA 08:23

A példátlan aszály szorongatja Floridát – meddig tart a válság?

Florida rendkívüli aszálytól szenved, amilyet az elmúlt 15 évben nem tapasztaltak...

MA 08:09

Az Uránusz és a Neptunusz mélyén bizarr anyagállapot rejtőzhet

💧 A Naprendszer távoli óriásbolygóinak belsejében a tudósok új, rendkívül furcsa anyagállapotra bukkantak...

MA 08:01

Az új Lotus kártevő lecsapott a venezuelai energiaszektorra

⚠ A venezuelai energia- és közműszolgáltatók ellen új, eddig nem dokumentált adatmegsemmisítő kártevőt, a Lotust vetették be 2025 végén...

MA 07:58

Az OpenAI új képgenerátora a valóság határait feszegeti

Néhány hónap telt csak el az OpenAI korábbi, nagy előrelépést jelentő képgeneráló-frissítése óta, máris itt a következő nagy dobás: a ChatGPT Images 2...

MA 07:50

A viharfény rejtélye: fák, melyektől felizzik a levegő

Ez a jelenség jól illusztrálható azzal, hogy amerikai kutatók először figyeltek meg természeti körülmények között gyenge, ibolyaszínben derengő fényjelenséget a fák lombkoronáján vihar idején...

MA 07:42

Az új Framework Laptop Pro: a laptop, ami végre időtálló

Öt év fejlesztés, hat (vagy inkább hét) alaplap és folyamatos frissítések – ezt tudja felmutatni a Framework Laptop 13 története...