2025. 03. 03., 11:30

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek
Meglepően gyakori panasz azoktól a fejlesztőktől, akik már kipróbálták a nyelvi modelleket (LLM) kódírásra, hogy hallucinációkba ütköztek – általában olyan funkciókat vagy akár teljes szoftverkönyvtárakat talál ki a modell, amelyek nem léteznek – és ez azonnal lerombolta a bizalmukat az LLM-ekben mint kódírási eszközökben. Hogyan használhatná bárki is hatékonyan ezeket az eszközöket, ha olyan funkciókat találnak ki, amelyek nem léteznek? A kódban előforduló hallucinációk valójában a legkevésbé káros hallucinációk, amelyekkel egy modellnél találkozhatsz.

A valódi veszély máshol rejlik

Az LLM-ek kódírásra való használatának igazi kockázata az, hogy olyan hibákat követhetnek el, amelyeket nem azonnal észlel a nyelvi fordító vagy értelmező. És ezek folyamatosan előfordulnak!

Abban a pillanatban, amikor futtatod az LLM által generált kódot, bármilyen hallucinált metódus azonnal nyilvánvalóvá válik: hibaüzenetet kapsz. Ezt magad is kijavíthatod, vagy visszatáplálhatod a hibaüzenetet az LLM-be, és figyelheted, ahogy korrigálja önmagát.

Hasonlítsd ezt össze a hagyományos prózában előforduló hallucinációkkal, ahol kritikus szemre, erős intuícióra és jól fejlett tényellenőrzési készségekre van szükséged, hogy elkerüld a helytelen és a hírnevedre közvetlenül káros információk megosztását.

Ingyenes tényellenőrzés a kódban

A kóddal ingyenesen kapsz egy hatékony tényellenőrzési formát. Csak futtasd a kódot, és nézd meg, működik-e. A hallucinált funkciók olyan apró akadályok, hogy amikor az emberek panaszkodnak rájuk, feltételezhető, minimális időt töltöttek azzal, hogy megtanulják, hogyan használják hatékonyan ezeket a rendszereket – az első akadálynál feladták.

Miért utasítják el egyesek az MI-t ilyen gyorsan?

Kissé Cinikusan azt is mondhatnánk, hogy talán csak egy okot kerestek a technológia elutasítására, és az elsőnél lecsaptak rá.

Esetleg senki sem figyelmeztette őket, hogy sok munkát kell befektetni ahhoz, hogy megtanulják, hogyan érhetnek el jó eredményeket ezekkel a rendszerekkel.


A kézi tesztelés nélkülözhetetlen

Csak mert a kód jónak tűnik és hiba nélkül fut, még nem jelenti azt, hogy valóban a megfelelő dolgot csinálja. Semmilyen alapos kódfelülvizsgálat – vagy akár átfogó automatizált tesztek – sem bizonyítják meggyőzően, hogy a kód valóban a helyes dolgot teszi. Magadnak kell futtatnod! Annak bizonyítása, hogy a kód működik, a te feladatod.

Az LLM-kód általában fantasztikusan néz ki: jó változónevek, meggyőző megjegyzések, világos típusannotációk és logikus struktúra. Ez hamis biztonságérzetbe ringathat, ugyanúgy, ahogy egy nyelvtanilag helyes és magabiztos válasz a ChatGPT-től arra csábíthat, hogy kihagyd a tényellenőrzést vagy a szkeptikus szemlélet alkalmazását.

Hogyan kerüljük el a csapdákat?

A problémák elkerülésének módja ugyanaz, mint ahogy elkerülöd a problémákat más emberek által írt kódban, amelyet felülvizsgálsz, vagy a saját kódodban: aktívan tesztelned kell azt a kódot. Kiváló manuális minőségellenőrzési készségekkel kell rendelkezned.

A programozás általános szabálya, hogy soha ne bízz egyetlen kódrészletben sem, amíg nem láttad saját szemeddel működni – vagy, ami még jobb, nem láttad hibázni, majd kijavítottad.

Tippek a hallucinációk csökkentésére

Ha valóban hallucinált részletek áradatát tapasztalod az LLM-ek által neked készített kódban, számos dolgot tehetsz ellene.

Próbálj ki különböző modelleket. Lehet, hogy egy másik modellnek jobb a tanítási adathalmaza a választott platformodhoz. Jelenlegi a gondolkodás funkcióval ellátott Claude 3.7 Sonnet, az OpenAI o3-mini-high és a GPT-4o Code Interpreter a közönség kedvencek.

Tanuld meg, hogyan használd a kontextust. Ha egy LLM nem ismer egy adott könyvtárat, gyakran orvosolhatod ezt néhány tucat sornyi példakód beillesztésével. Az LLM-ek hihetetlenül jók az utánzásban és a minták gyors felismerésében nagyon korlátozott példák alapján. A modern modellek egyre nagyobb kontextusablakokkal rendelkeznek – a Claude új funkciója, hogy teljes repókat enged betölteni.

 

 

  • Te hogy kezelnéd, ha egy LLM által generált kódban hibát találnál, és mi lenne a következő lépésed?
  • Mit tennél, ha olyan eszközt használnál, ami többször is hallucinált metódusokat generál?


Legfrissebb posztok

MA 18:03

Az iPad Air M4 most a legjobb vétel – de meddig?

Erre utal többek között az, hogy a legújabb iPad Air már első kézbevételkor is meglepően erős, és mindennapi használatban is könnyedén kivált egy hagyományos számítógépet...

MA 18:00

A digitális ikrek forradalma: személyre szabott műtétek küszöbén

🤖 A gasztroenterológusok egyik legizgalmasabb új eszköze a digitális iker: egy olyan számítógépes modell, amely képes valósághűen leutánozni az emberi szervezet működését, hogy az orvosok jobban értsék a betegségeket, és személyre szabottabb eljárásokat alkalmazhassanak...

MA 17:04

Az MI kettős ügynökei ellen mennyit kér a Microsoft?

🤖 A vállalatokban dolgozó MI-ügynökök elterjedése elképesztő sebességgel zajlik, ám a biztonságuk és szabályozásuk jócskán lemaradt...

MA 16:58

A fehér villanások réme még mindig kísért Windowsban

⚡ A Windows 11 egy régóta bosszantó hibával küzd: sokaknál fehér villanás jelenik meg a Fájlkezelő megnyitásakor, főleg ha sötét módot használnak...

MA 16:40

Az új Mullvad WireGuard: végre valódi védelmet kapnak a felhasználók?

🔒 A Mullvad VPN saját WireGuard-protokolljának, a GotaTunnak független biztonsági auditja semmilyen jelentős sebezhetőséget nem talált, így a felhasználók most már fellélegezhetnek...

MA 16:21

Az új Galaxy S26 Ultra drágább, mégis tele felesleges appokkal

💸 A Galaxy S26 Ultra bemutatásával a Samsung ismét a prémium kategóriát célozta meg, az alapváltozat ára 475 ezer forintról indul...

MA 13:59

A bukás, csalás és leleplezés nyomában: FBI-tól a hackerekig

🕵 Az utóbbi napokban az FBI kibervédelmi rendszereiben olyan behatolást fedeztek fel, amely a drótlehallgatáshoz és a megfigyeléshez köthető hálózatokat érintette...

MA 13:39

Az egyszerű matektrükk, ami leleplezi, milyen jó problémamegoldó vagy

Például: 29 + 14. Valaki leírja egymás alá a számokat, összeadja az egyeseket, átvisz, majd összeadja a tízeseket, így kijön a 43...

MA 13:21

Az európai őslakosok nem tűntek el: a nők adták tovább a földművelést

Tipikus eset, amikor a múltunkat egy-egy váratlan felfedezés teljesen új megvilágításba helyezi...

MA 11:40

Az űrgazdaság lázban: új ETF a SpaceX tőzsdei bevezetése előtt

Az amerikai Roundhill Investments egyre népszerűbb tematikus alapjairól ismert: sportfogadás, fogyókúrás gyógyszerek, önvezető autók és a metaverzum – mind külön tőzsdén kereskedett alapban (ETF) futnak náluk...

MA 11:01

Az MI nem ember – két per kemény tanulságai

Az elmúlt hetekben két amerikai bírósági ügyben is kimondták, hogy az MI-botok nem tekinthetők emberi lényeknek...

MA 10:54

Az Apple láthatatlan dizájnzsenije: Steve Lemay

💻 Szóval van egy arc az Apple-nél, Steve Lemay, aki konkrétan irányítja, hogy mit és hogyan érintgetsz az iPhone-odon vagy az Apple Watchodon...

MA 10:38

Az MI-láz tetőzik: az Nscale már 5400 milliárdot ér

Az Nscale nevű brit startup mindössze egy év alatt kulcsszereplővé vált az MI-infrastruktúra piacán, miután újabb 2 milliárd dollár, vagyis közel 720 milliárd forint forrást vont be...

MA 10:29

Az üzemanyagár-horror visszatér: jön az újabb történelmi csúcs?

🚗 Az autósok Amerikában újabb, még súlyosabb üzemanyagáremelkedésre készülhetnek, ahogy az olajárak példátlan ugrást produkáltak egyik napról a másikra...

MA 10:21

A hosszú karú törpedínó átírja a mini őshüllők történetét

Különös dinoszauruszcsontváz került elő Argentínából: az Alnashetri cerropoliciensis nevű, alig 700 grammos állat megdönti a korábbi elméleteket a miniatűr, rovarevő őshüllők fejlődéséről...

MA 09:56

Az infláció hároméves csúcson Kínában – kifullad-e a lendület?

Felmerül a kérdés, mennyire változik Kínában a fogyasztói árak helyzete, miután februárban az infláció nagyobb mértékű növekedést mutatott, mint bármikor az elmúlt három évben...

MA 09:47

Az emberi agysejtek most már Doomot is játszanak

Egy ausztrál cég, a Cortical Labs, sikeresen összekötött nagyjából 200 ezer élő emberi agysejtet egy szilíciumlapkával, hogy azok elboldoguljanak a legendás Doom játékban...

MA 09:20

Az ősi élet nyomai a legváratlanabb helyen kerültek elő

Marokkó mélyén, a Közép-Atlasz hegyvonulataiban egészen különös felfedezésre bukkantak a kutatók...

MA 09:10

A mesterséges intelligencia az észak-koreai hekkerek új csodafegyvere

🛡 Érdemes megvizsgálni, hogy napjainkban az MI-ügynökök jelentősen megkönnyítik a kiberbűnözők és állami hekkerek dolgát...

MA 09:01

Az olaj kilő, a Bitcoin szakad – Mi történik?

Nem hiszem el, de a hétvégi hírek még mindig semmi békülésről nem szólnak az iráni fronton, úgyhogy az olajpiac teljesen bepörgött...

MA 08:46

A Kansas City repülőtéren: rövid pánik, aztán minden a régi

Nem mindennapi vasárnapja volt a Kansas City Nemzetközi Repülőtérnek: órákra kiürítették a terminált egy vélt fenyegetés miatt...

MA 08:37

A grafén ihlette a mágnesek új korszakát

💡 A kétdimenziós anyagok különleges elektronikai és mágneses tulajdonságaik miatt komoly figyelmet kapnak, hiszen ezek a jövő technológiáit is forradalmasíthatják...

MA 08:29

Az Einstein-féle téridő mégsem úgy hajlik, ahogy hittük?

🤔 A modern fizika két legfontosabb elméletének, a kvantumelméletnek és az általános relativitáselméletnek az összeegyeztetése régóta várat magára...

MA 08:19

A Bitcoin tovább szakad: közeleg az amerikai tőzsdepánik?

A Bitcoin ára egyelőre stabilan 67 000 dollár (kb. 24,3 millió Ft) körül mozog, miközben a világ tőzsdéin komoly eladási hullámok indultak, az olaj ára meghaladta a 100 dollárt (36 ezer Ft) hordónként, és az USA-dollár egy éve nem látott erősödést produkált...

MA 08:01

Az agyszkennelés felfedi, mit művel a ketamin a depresszióval

A depresszió világszerte az egyik vezető egészségügyi probléma, nem véletlen, hogy az érintettek mintegy 30 százaléka a hagyományos antidepresszánsokra sem reagál...

MA 07:55

Az ázsiai tőzsdéket csak részben hűti le az olajárzuhanás

📈 Dél-Koreában a Kospi index hétfő délelőtt négy napon belül másodszor aktiválta a kereskedést felfüggesztő automatizmust, amikor a piac több mint 8 százalékot zuhant, miután az olajár hordónként közel 120 dollárig (kb...

MA 07:37

A gyermekkori elhízás mögött gyakran a szülők stressze áll

👶 Miközben a gyermekkori elhízás továbbra is riasztó ütemben terjed: 2024-ben az USA-ban minden ötödik gyerek és kamasz túlsúlyos lett...

MA 07:28

Az EU odacsap: a bankoknak azonnal kártalanítaniuk kell az adathalászat áldozatait

Az Európai Unió Bíróságának főtanácsnoka, Athanasios Rantos szerint a pénzintézeteknek haladéktalanul vissza kell téríteniük azokat a számlatulajdonosokat, akik jogosulatlan tranzakciók áldozatai lettek – akkor is, ha ebben részben saját hibájuk is közrejátszott...

MA 07:19

Az univerzum dübörög: megduplázódott a fekete lyuk–neutroncsillag ütközések száma

A Laser Interferometer Gravitational-Wave Observatory (LIGO) példátlan módon először a téridő hullámain keresztül érzékelte az ütköző fekete lyukakat...