Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek
Meglepően gyakori panasz azoktól a fejlesztőktől, akik már kipróbálták a nyelvi modelleket (LLM) kódírásra, hogy hallucinációkba ütköztek – általában olyan funkciókat vagy akár teljes szoftverkönyvtárakat talál ki a modell, amelyek nem léteznek – és ez azonnal lerombolta a bizalmukat az LLM-ekben mint kódírási eszközökben. Hogyan használhatná bárki is hatékonyan ezeket az eszközöket, ha olyan funkciókat találnak ki, amelyek nem léteznek? A kódban előforduló hallucinációk valójában a legkevésbé káros hallucinációk, amelyekkel egy modellnél találkozhatsz.

A valódi veszély máshol rejlik

Az LLM-ek kódírásra való használatának igazi kockázata az, hogy olyan hibákat követhetnek el, amelyeket nem azonnal észlel a nyelvi fordító vagy értelmező. És ezek folyamatosan előfordulnak!

Abban a pillanatban, amikor futtatod az LLM által generált kódot, bármilyen hallucinált metódus azonnal nyilvánvalóvá válik: hibaüzenetet kapsz. Ezt magad is kijavíthatod, vagy visszatáplálhatod a hibaüzenetet az LLM-be, és figyelheted, ahogy korrigálja önmagát.

Hasonlítsd ezt össze a hagyományos prózában előforduló hallucinációkkal, ahol kritikus szemre, erős intuícióra és jól fejlett tényellenőrzési készségekre van szükséged, hogy elkerüld a helytelen és a hírnevedre közvetlenül káros információk megosztását.

Ingyenes tényellenőrzés a kódban

A kóddal ingyenesen kapsz egy hatékony tényellenőrzési formát. Csak futtasd a kódot, és nézd meg, működik-e. A hallucinált funkciók olyan apró akadályok, hogy amikor az emberek panaszkodnak rájuk, feltételezhető, minimális időt töltöttek azzal, hogy megtanulják, hogyan használják hatékonyan ezeket a rendszereket – az első akadálynál feladták.

Miért utasítják el egyesek az MI-t ilyen gyorsan?

Kissé Cinikusan azt is mondhatnánk, hogy talán csak egy okot kerestek a technológia elutasítására, és az elsőnél lecsaptak rá.

Esetleg senki sem figyelmeztette őket, hogy sok munkát kell befektetni ahhoz, hogy megtanulják, hogyan érhetnek el jó eredményeket ezekkel a rendszerekkel.


A kézi tesztelés nélkülözhetetlen

Csak mert a kód jónak tűnik és hiba nélkül fut, még nem jelenti azt, hogy valóban a megfelelő dolgot csinálja. Semmilyen alapos kódfelülvizsgálat – vagy akár átfogó automatizált tesztek – sem bizonyítják meggyőzően, hogy a kód valóban a helyes dolgot teszi. Magadnak kell futtatnod! Annak bizonyítása, hogy a kód működik, a te feladatod.

Az LLM-kód általában fantasztikusan néz ki: jó változónevek, meggyőző megjegyzések, világos típusannotációk és logikus struktúra. Ez hamis biztonságérzetbe ringathat, ugyanúgy, ahogy egy nyelvtanilag helyes és magabiztos válasz a ChatGPT-től arra csábíthat, hogy kihagyd a tényellenőrzést vagy a szkeptikus szemlélet alkalmazását.

Hogyan kerüljük el a csapdákat?

A problémák elkerülésének módja ugyanaz, mint ahogy elkerülöd a problémákat más emberek által írt kódban, amelyet felülvizsgálsz, vagy a saját kódodban: aktívan tesztelned kell azt a kódot. Kiváló manuális minőségellenőrzési készségekkel kell rendelkezned.

A programozás általános szabálya, hogy soha ne bízz egyetlen kódrészletben sem, amíg nem láttad saját szemeddel működni – vagy, ami még jobb, nem láttad hibázni, majd kijavítottad.

Tippek a hallucinációk csökkentésére

Ha valóban hallucinált részletek áradatát tapasztalod az LLM-ek által neked készített kódban, számos dolgot tehetsz ellene.

Próbálj ki különböző modelleket. Lehet, hogy egy másik modellnek jobb a tanítási adathalmaza a választott platformodhoz. Jelenlegi a gondolkodás funkcióval ellátott Claude 3.7 Sonnet, az OpenAI o3-mini-high és a GPT-4o Code Interpreter a közönség kedvencek.

Tanuld meg, hogyan használd a kontextust. Ha egy LLM nem ismer egy adott könyvtárat, gyakran orvosolhatod ezt néhány tucat sornyi példakód beillesztésével. Az LLM-ek hihetetlenül jók az utánzásban és a minták gyors felismerésében nagyon korlátozott példák alapján. A modern modellek egyre nagyobb kontextusablakokkal rendelkeznek – a Claude új funkciója, hogy teljes repókat enged betölteni.

 

 

  • Te hogy kezelnéd, ha egy LLM által generált kódban hibát találnál, és mi lenne a következő lépésed?
  • Mit tennél, ha olyan eszközt használnál, ami többször is hallucinált metódusokat generál?


Legfrissebb posztok

szombat 18:40

Leghaszontalanabb amerikai szlengek és idiómák

“Wallet biopsy” Szó szerint: pénztárca-biopszia 💸, amikor egy orvos vagy egészségügyi szolgáltató előbb ellenőrzi 🔬, mennyi pénzed / biztosításod van, és aztán dönti el, milyen vizsgálatot kapsz...

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 11:34

Az ázsiai tőzsdéket megrázta a váratlan kínai gyengülés

📈 Decembert vegyes hangulatban kezdték az ázsiai piacok, miután Kína feldolgozóipari teljesítménye váratlanul visszaesett...

MA 11:18

Az MI gondolkodik, vagy csak egy okos autós kütyü?

🤔 A gépek gondolkodásának kérdése hosszú ideje foglalkoztatja az emberiséget. Már Alan Turing 1950-ben eldöntendő kérdésként vetette fel: „Gondolkozhatnak-e a gépek?”..

MA 10:51

Az elhízás csendes motorja: a szójaolaj kockázatai

🥗 A szójaolaj az Egyesült Államok legnépszerűbb konyhai olaja, szinte minden feldolgozott élelmiszerben megtalálható...

MA 10:43

Az Amazon és a Google összeáll: indul a közös multicloud-hálózat

A két technológiai óriás, az Amazon és a Google bejelentették egy új, közösen fejlesztett multicloud hálózati szolgáltatás indulását, amely lehetővé teszi, hogy ügyfeleik percek alatt magán, nagy sebességű kapcsolatot hozhassanak létre az Amazon Web Services (AWS) és a Google Cloud platformjai között – amelynek kiépítését korábban hetekig tartó, bonyolult szervezés előzte meg...

MA 10:29

Az okostévés YouTube‑pótlék is fertőzött: mit tegyél most?

💡 A héten derült ki, hogy a SmartTube, a legnépszerűbb YouTube-alternatíva Android TV-re és Fire TV-re, hivatalos APK-fájljai kártevőt tartalmaznak...

MA 10:16

Az állam bekeményít: feketelistán a felhő, az M365 és a SaaS

🕵 Svájc adatvédelmi szakemberei komoly aggályokat fogalmaztak meg a nagy felhőszolgáltatókkal, különösen a SaaS (szoftver mint szolgáltatás) rendszerekkel kapcsolatban...

MA 09:23

A leépítések árnyékában: a nagyvállalatok titkos védőhálója

🔑 A gazdasági turbulenciák minden eddiginél nagyobb kihívások elé állítják a vállalatokat...

MA 09:08

Az MI forradalmasíthatja az űrmeghajtást

Az egyszerre hatékonyabb és biztonságosabb bolygóközi utazások érdekében az űrmérnökök új lendületet keresnek a meghajtási technológiák fejlesztésében...

MA 08:58

Mérgezik az Amazon adatközpontjai Oregon állam ivóvizét?

💧 Morrow megye, Oregon – több százezer liter víz tűnik el évente az Amazon hatalmas adatközpontjaiban, amelyek a környéken működő mezőgazdasági óriásüzemek közé épültek...

MA 08:50

Az oroszokat kizárták az ISS-ről, összeomlott a kilövőállás

November 27-én sikeresen startolt egy orosz rakéta a Nemzetközi Űrállomásra, ám a gondok nem sokkal később kezdődtek...

MA 08:44

Az ítéletnapi gleccser repedezik: közeleg a tengeri katasztrófa?

Két évtizeden át gyűjtött műholdas és GPS-adatok alapján a nyugat-antarktiszi Thwaites-gleccser (közismertebb nevén ítéletnapi gleccser) jégselfje aggasztó ütemben veszít stabilitásából...

MA 08:38

A mesterséges intelligencia már titokban értékeli az egyetemi kutatást?

Első pillantásra úgy tűnt, hogy a brit kutatási világ még óvatosan közelít a mesterséges intelligencia (MI) használatához, ám egy friss országos jelentés váratlanul rávilágított: a generatív MI már elterjedten segíti az egyetemeket kutatási teljesítményük értékelésében – még akkor is, ha erről kevés szó esik nyilvánosan...

MA 08:30

A nagy rejtély: miben tér el a gőte a szalamandrától?

Többek között erdei tavak környékén gyakran lehet találkozni hosszú farkú kétéltűekkel: szalamandrákkal, vagy akár gőtét is felfedezhetünk...

MA 08:23

Az alapítók háborúja: ezért dől be a legtöbb startup

A kezdő vállalkozások egyik legfőbb buktatója az alapítók közötti kapcsolatban keresendő...

MA 08:08

A cukros csapda: a fruktóz alattomosan szítja a gyulladást

A legújabb kutatások szerint már egész rövid ideig tartó, fruktózban gazdag italok fogyasztása is felerősítheti az immunrendszer gyulladásos reakcióját...

MA 07:52

Az elveszett amazóniai világ újra felbukkant Bolíviában

🌎 Bolívia Amazóniájának egyik legrejtettebb területén, az Exaltación hatalmas tektonikus tavai körül egy elveszett világ emelkedett újra felszínre...

MA 07:43

Az űripar új sztárja: 54 milliárdos tét egyetlen részvényre

A tulsai székhelyű Schusterman Interests mintegy 2,1 millió Karman Holdings-részvényt vásárolt, összesen 54 milliárd forint értékben (148 millió USD), miután a Karman árfolyama kevesebb mint egy év alatt több mint megháromszorozódott...