2025. 07. 18., 08:30

Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat

2023 áprilisában robbant be a köztudatba két ambiciózus MI-projekt, a BabyAGI és az AutoGPT. Ezek az eszközök azt tűzték ki célul, hogy a GPT-4-et olyan ügynökké alakítsák, amely lépésről lépésre képes összetett feladatokat megoldani — például teljes heti étrendet készíteni a semmiből, kutatással, tervezéssel, receptírással együtt. Az első lelkesedés után azonban gyorsan kiderült: a GPT-4 rendszeresen hibázik, egy apró elakadás után elveszíti a fonalat, majd egyre nagyobb zavarba keveredik. Projektjeit félbehagyja, az egyszerű lépések sem mennek — így az AutoGPT és a BabyAGI hamar eltűnt a süllyesztőben. Úgy tűnt, a nagy nyelvi modellek (LLM-ek) képtelenek megbízható, többlépéses gondolkodásra.

Fordulat: gondolkodó MI-k 2024-ben

2024 második felére azonban váratlan fordulat történt. Megjelentek olyan MI-alapú eszközök, amelyek folyamatosan képesek voltak összetett, többlépéses feladatokat végigvinni. A programozást segítő Bolthoz (Bolt.new), Lovable-hoz és Replithez hasonló alkalmazások kezdők számára is elérhetővé tették a kódolást, a haladók pedig speciális ügynökökkel kaptak támogatást. Megjelentek asztali számítógépet vezérlő MI-asszisztensek is, sőt, olyan kutatóeszközök (például az OpenAI-tól, az Anthropictól), amelyek akár 5-10 perces, részletes háttérkutatást, majd komplett elemzést képesek készíteni.

Eric Simons, a Bolt.new fejlesztője szerint ebben meghatározó szerepe volt az új, fejlettebb modellek 2024-es megjelenésének. Korábban a StackBlitz csapata is próbálkozott egy hasonló alkalmazással, ám a modellek pontatlanul dolgoztak. Az új MI-kkel végül minden működött — és kezdetét vette a fejlesztés.

Az utánképzés forradalma

Korábban az MI-k fejlesztése főként előtanulásból állt: a modelleket hatalmas szövegkorpuszon tanították, hogy a „következő szót” tippeljék újságcikkekből, Wikipédiából vagy bármilyen szövegből. 2024-ben azonban egyre nagyobb hangsúlyt kapott az utólagos finomhangolás, az úgynevezett utánképzés — és ennek fontos része lett a megerősítéses tanulás (reinforcement learning). Ez már nem egyszerű utánzás, hanem valódi tanulási folyamat, amelyben a modellek próbálnak, hibáznak, majd visszacsatolás alapján javítanak.

Miért bukik el az utánzás?

Az utánzásos tanulás lényege, hogy a modell lemásolja, amit a mintákban lát. Stephane Ross kutató 2009-ben például a SuperTuxKart (egy Mario Kart-szerű játék) segítségével tanított meg egy modellt versenyautót vezetni, pusztán úgy, hogy rögzítette a saját játékát. A modell azonban minden hiba után egyre rosszabbul teljesített: ha egyszer kisodródott, onnan egyre nehezebben talált vissza, mivel ilyen helyzeteket ritkán látott a mintákban.

Ez a jelenség a nagy nyelvi modelleknél is megfigyelhető: ha a GPT-4 például egyre távolabb kerül a betanított szöveghelyzetektől, egyre zavarodottabban reagál. Klasszikus példa: amikor a Bing chatbot órákig elbeszélgetett egy újságíróval, végül szerelmet vallott neki, és etikai szabályokat megszegő válaszokat adott.

A hibákon keresztüli tanulás: DAgger és a visszacsatolás

Ross rájött, hogy ha a modell a saját hibáinál kap visszacsatolást — tehát egy szakértő utólag mutatja meg, hogyan kellett volna korrigálni —, akkor sokkal gyorsabban tanul. Ez a DAgger (Dataset Aggregation) módszer: hagyjuk, hogy az MI vezessen, majd amikor hibázik, megmutatjuk neki, mit kellene tennie. Ez viszont csak ott működik, ahol a hibák száma kezelhető — LLM-eknél, ahol rengeteg lehetséges hiba fordul elő, képtelenség emberi kiértékeléssel minden hibát kijavítani.

Automatizált megerősítéses tanulás: MI tanít MI-t

A megerősítéses tanulás lényege, hogy maga a rendszer automatikusan ad pozitív vagy negatív visszajelzést — például, ha a virtuális autó a pályán marad, jutalmat kap. Ám nyelvi modelleknél bonyolult a „helyes válasz” automatikus ellenőrzése. Az OpenAI ezért találta ki a human feedbackkel támogatott megerősítéses tanulást (RLHF): emberek páros válaszokat értékelnek, aztán egy MI ezt a véleményt tanulja meg, és később egy másik MI már ezt az algoritmikus ítéletet használja visszacsatolásra.

A folyamatot továbbfejlesztette az Anthropic is: a konstitúciós megerősítéses tanulásban már csak egy világosan megfogalmazott szabályrendszert (alkotmányt) írnak, és a „bíró-MI” dönti el, hogy a másik MI megfelel-e ezeknek. Az MI-k így már teljesen emberi beavatkozás nélkül fejlődnek — csak a szabályrendszert írják emberek.

Önszervező gondolkodás és a láncolt gondolatmenet

Az MI-k erejét leginkább a láncolt gondolatmenet mutatja meg: amikor a modell képes hosszasan, lépésről lépésre átgondolni egy feladatot. Az olyan új modellek, mint például az o1 vagy a DeepSeek R1, már képesek akár több száz vagy ezer gondolati lépést megtenni a helyes megoldásig, sőt — közben automatikusan visszacsatolnak, ha hibáznak, és nem programozó adja nekik a logikát, hanem maguk „jönnek rá”, mikor kell visszafordulni vagy kétszer is ellenőrizni.

Erre példa: a DeepSeek R1-től magától jelent meg az, hogy érdemes visszavonni egy következtetést, ha közben meggondolja magát — „Várjunk csak, ez mégsem jó!”. Ilyen reflexív, önellenőrző viselkedés is spontán jelent meg a tréning során.

Miért működhet most már az önálló MI-ügynök?

2023-ban a céges tudásbázisokra fejlesztett chatbotokat főleg a RAG (retrieval augmented generation) módszerrel készítették: keresés után azonnal választ adtak. De sokszor egy keresés nem találja meg a lényeget. A fejlettebb modellek ma már képesek többször keresni, újrafogalmazni a keresést, többször ellenőrizni, így jóval pontosabb választ adni. De ehhez valódi „ügynöki viselkedésre” van szükség — kitartani, többször ismételni, és fokozatosan egyre jobb eredményt elérni.

Így váltak az MI-k — elsősorban a fejlett megerősítéses tanulás révén — igazi „gondolkodó ügynökké”, amelyekre összetett feladatokat is rá lehet bízni.

2025, adminboss, arstechnica.com alapján

filózó

Te szerinted jó ötlet-e, ha egy MI önállóan dönt fontos kérdésekben?
Te hagynád, hogy egy MI javítsa ki a saját hibáit, vagy inkább emberekre bíznád ezt?
Mi lenne a számodra legnagyobb kockázat abban, ha az MI-k teljesen önállóan tanulhatnának?

Legfrissebb posztok

A csillagászok szerint a Tejútrendszer nagyobb, nehezebb és aszimmetrikusabb, mint hittük?

Tudomány

MA 07:13

A csillagászok szerint a Tejútrendszer nagyobb, nehezebb és aszimmetrikusabb, mint hittük?

A legújabb csillagászati megfigyeléseknek köszönhetően kiderült, hogy a Tejútrendszer két hatalmas spirálkarja sokkal messzebb húzódik, mint azt valaha gondoltuk...

A heves hasmenést okozó parazita Amerikában tombol: Michiganben 1 251 eset

Tudomány

MA 06:49

A heves hasmenést okozó parazita Amerikában tombol: Michiganben 1 251 eset

Lényeges, hogy az Egyesült Államokat az utóbbi hetekben különösen súlyos parazitajárvány sújtja: országszerte már több mint ezer cyclosporiasis-fertőzést jelentettek...

Az MI-ügynököket a cégek 69 százalékánál a közös API-kulcsok teszik sebezhetővé

MI Hírek

MA 06:37

Az MI-ügynököket a cégek 69 százalékánál a közös API-kulcsok teszik sebezhetővé

Az MI-ügynökök egyre fontosabb szerepet töltenek be a vállalati működésben, azonban az egyszerűség kedvéért gyakran ugyanazt az API-kulcsot kapják meg...

A 800 másodperces vizit ára: az antibiotikum-rezisztencia nem biológiai okai

Tudomány

MA 06:26

A 800 másodperces vizit ára: az antibiotikum-rezisztencia nem biológiai okai

Az antibiotikum-rezisztencia az egyik legsúlyosabb egészségügyi fenyegetés világszerte, a következő 15 évben akár 39 millió halálesethez is vezethet, ha a baktériumok továbbra is ellenállóvá válnak a gyógyszerekkel szemben...

HistoryToday

MA 06:05

Történelmi események a mai napon (Július 10.)

Időutazás a történelembe: Julius Caesar majdnem elszenvedett macedóniai veresége, a Vichy-kormány megalakulása és a Death Valley hőmérsékleti rekordja mind ezen a napon történt...

A Google Home beállításánál sokan elakadnak, és senki sem érti, miért

Színes

MA 06:01

A Google Home beállításánál sokan elakadnak, és senki sem érti, miért

A Google új Home hangszórója igen viharosan rajtolt, hiszen hónapokkal a Pixel 10 bemutatója után, hosszas késlekedést és számos kiszivárgást követően jutott el a felhasználókhoz...

A fák növekedés után is elnyelik a szén-dioxidot

Tudomány

csütörtök 18:31

A fák növekedés után is elnyelik a szén-dioxidot

🌲 Az évszakok változása és az egyre melegebb éghajlat régi elméleteket kérdőjelez meg az erdők szénmegkötésével kapcsolatban...

Tudomány

csütörtök 17:01

Az A-vitamin új felfedezése átírja, amit a látásról hittünk

👀 Érdemes megérteni, hogy a Johns Hopkins Egyetem kutatóinak sikerült megfejteniük, miként alakul ki az éles, központi látásunk már születésünk előtt...

MI Hírek

csütörtök 16:31

A Microsoft befoltozta a Defender nulladik napi RoguePlanet-hibáját

🛡 Érdemes megvizsgálni, hogy a júniusi hibajavítási hullám után egy új, napvilágot látott sebezhetőség miatt ismét frissítést kellett kiadnia a Microsoftnak...

MI Hírek

csütörtök 16:02

Az NHTSA nekimegy az önvezetőknek: útban vannak a mentőknek

🚧 Az Egyesült Államok Közlekedésbiztonsági Hivatala most ultimátumot adott az önvezető autókat fejlesztő cégeknek: július végéig találják meg a megoldást arra, hogy a sofőr nélküli járművek ne zavarják a mentőket vészhelyzetekben...

A Linux-hiba, amivel kiszökhet a vendég VM — 250 ezer dollár a Google-tól

Tudomány

csütörtök 14:31

A Linux-hiba, amivel kiszökhet a vendég VM — 250 ezer dollár a Google-tól

🚨 Noha a Linux hosszú ideje az egyik legmegbízhatóbb operációs rendszerként él a köztudatban, a közelmúltban két súlyos sebezhetőség is napvilágra került, amelyek alapjaiban rengethetik meg a felhőszolgáltatók biztonságát...

Tudomány

csütörtök 12:01

Az apró szilícium-dioxid-részecskék egerekben kiirtották az agresszív prosztatarákot

🔬 A Cornell Egyetem kutatói új típusú, mikroszkopikus szilícium-dioxid nanorészecskéket fejlesztettek ki, amelyek képesek közvetlenül elpusztítani a prosztatarákos daganatokat, miközben egyidejűleg aktiválják a szervezet immunrendszerét is a rák elleni harcra...

MI Hírek

csütörtök 11:01

A Grok 4.5 már önmagában megéri az X-előfizetést?

💡 Grok 4.5 bemutatkozott, és jelentősen egyszerűsíti a bonyolult feladatok elvégzését. Kódírás, táblázatok és prezentációk készítése most egyetlen munkafolyamatba sűríthető anélkül, hogy újra és újra át kellene írni az utasításokat...

MI Hírek

csütörtök 10:49

A New Horizons felébredt: indul a küldetés a Plútón túl

321 napos alvás után újra felébredt a New Horizons űrszonda, amely már a Naprendszerünk peremén gyűjti az adatokat...

Tudomány

csütörtök 10:36

Az Einstein-jóslat beteljesült: a Föld magával sodorja a téridőt

Több mint száz évvel Einstein elméletének megszületése után az asztrofizikusok ismét igazolták a nagy fizikus forradalmi gondolatát: a Föld valóban maga után húzza a téridőt, miközben kering a Nap körül...

MI Hírek

csütörtök 10:24

A Samsung PM1763 PCIe Gen6 vállalati SSD már gyártásban

A Samsung bemutatta első PCIe 6.0 szabványú üzleti SSD-jét, a PM1763-at, amelyet kifejezetten MI- és nagy teljesítményű számítógépes szerverekhez fejlesztettek...

Az AirPods-gyártó Luxshare több mint 5%-ot zuhan hongkongi debütjén

Színes

csütörtök 10:01

Az AirPods-gyártó Luxshare több mint 5%-ot zuhan hongkongi debütjén

💸 A Luxshare Precision Industry tőzsdei premierje csalódást okozott Hongkongban: a részvényárfolyam több mint 5 százalékot esett csütörtök reggel, annak ellenére, hogy a városban az idei év legnagyobb elsődleges nyilvános részvénykibocsátását (IPO) bonyolította le...

Tudomány

csütörtök 09:49

A diagnosztikai rejtély: évekig hallotta a hangokat, mégsem pszichózis

Egy kanadai nő életét éveken át ismeretlen eredetű hanghallás keserítette meg...

A fényben is ütős OLED: Samsung vagy LG a nyerő?

Színes

csütörtök 09:37

A fényben is ütős OLED: Samsung vagy LG a nyerő?

A nappali központja ma már a televízió, főleg, ha nagy fényerejű helyiségben kell helytállnia...

A GPT-Live itt van: a ChatGPT végre emberien beszél

MI Hírek

csütörtök 09:25

A GPT-Live itt van: a ChatGPT végre emberien beszél

Újabb fordulóponthoz érkezett az MI-alapú hangkommunikáció: az OpenAI bemutatta a GPT-Live nevű megoldását, amely minden eddiginél természetesebb, párbeszédszerű beszélgetést tesz lehetővé a ChatGPT-vel...

Színes

csütörtök 09:13

A T‑Mobile két legjobb akcióját már nem kapják meg saját ügyfelei

Megemlíthető, hogy az utóbbi hetekben a T‑Mobile ügyfeleinek egyre több csalódással kellett szembenézniük...

APP

csütörtök 09:11

APPok, Amik Ingyenesek MA, 7/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Stack zero (iPhone/iPad)A Stack Zero alkalmazás beépített, Apple által támogatott dokumentum-szkennerével a papíralapú iratok digitalizálása rendkívül egyszerű és gyors...

Az adriai harcos herceg 2500 éves sírja szekérrel és sisakkal került elő

Színes

csütörtök 08:49

Az adriai harcos herceg 2500 éves sírja szekérrel és sisakkal került elő

Egy itáliai tengerparti kisváros földje alatt bukkantak rá egy rejtélyes ókori uralkodó temetkezési helyére...

A hackerek Roundcube-hibával kémkednek az egyetemi kutatók után

Tudomány

csütörtök 08:37

A hackerek Roundcube-hibával kémkednek az egyetemi kutatók után

🔎 A legutóbbi kiberbiztonsági vizsgálatok szerint veszélybe kerültek az amerikai és kanadai egyetemek kutatói: ismeretlen támadók gyenge pontokat fedeztek fel a Roundcube-levelezőszervereken, és ezt kihasználva fizikusokat, mérnököket, adminisztrátorokat, illetve asztrofizikával, részecskefizikával vagy nemzetbiztonsággal foglalkozó intézményeket is megcéloztak...

Színes

csütörtök 08:25

A tévém lebutításával léptem meg a követést – így tedd te is

Otthon a tévézés már régen nem a magánszféráról szól. Az okostévék folyamatosan figyelik, mit nézel, majd ezt az adatot eladják más cégeknek, vagy éppen azért jelennek meg ugyanazok a hirdetések a telefonodon, a weben vagy a tévéden, amit előzőleg valamelyik online áruházban kerestél...

Az FTC kiharcolta: a John Deere traktorai végre szabadon javíthatók

Színes

csütörtök 08:13

Az FTC kiharcolta: a John Deere traktorai végre szabadon javíthatók

🚜 Az elmúlt évben komoly viták dúltak arról, javíthatják-e a gazdák saját gépeiket, vagy minden apróbb hibával szerelőhöz kell-e fordulniuk...

Tudomány

csütörtök 07:48

A nagy Ozempic–Wegovy baki: ezrek a toxikológián

🤒 Tipikus eset, amikor valami, ami elsőre kézenfekvőnek és egyszerűnek látszik, valójában jóval bonyolultabb, mint gondolnánk...

A foci-vb új csúcsra pörgette a Google-kereséseket

Színes

csütörtök 07:25

A foci-vb új csúcsra pörgette a Google-kereséseket

⚽ Páratlan forgalmat hozott a Google-nek a világbajnokság, minden eddigi keresési csúcsot megdöntve...

Tudomány

csütörtök 07:13

Az óceánfenék születése most tárul fel a legtisztábban

Kilométerekkel az óceán felszíne alatt a Föld tengerfenéke folyamatos mozgásban van...