Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat

Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat
2023 áprilisában robbant be a köztudatba két ambiciózus MI-projekt, a BabyAGI és az AutoGPT. Ezek az eszközök azt tűzték ki célul, hogy a GPT-4-et olyan ügynökké alakítsák, amely lépésről lépésre képes összetett feladatokat megoldani — például teljes heti étrendet készíteni a semmiből, kutatással, tervezéssel, receptírással együtt. Az első lelkesedés után azonban gyorsan kiderült: a GPT-4 rendszeresen hibázik, egy apró elakadás után elveszíti a fonalat, majd egyre nagyobb zavarba keveredik. Projektjeit félbehagyja, az egyszerű lépések sem mennek — így az AutoGPT és a BabyAGI hamar eltűnt a süllyesztőben. Úgy tűnt, a nagy nyelvi modellek (LLM-ek) képtelenek megbízható, többlépéses gondolkodásra.

Fordulat: gondolkodó MI-k 2024-ben

2024 második felére azonban váratlan fordulat történt. Megjelentek olyan MI-alapú eszközök, amelyek folyamatosan képesek voltak összetett, többlépéses feladatokat végigvinni. A programozást segítő Bolthoz (Bolt.new), Lovable-hoz és Replithez hasonló alkalmazások kezdők számára is elérhetővé tették a kódolást, a haladók pedig speciális ügynökökkel kaptak támogatást. Megjelentek asztali számítógépet vezérlő MI-asszisztensek is, sőt, olyan kutatóeszközök (például az OpenAI-tól, az Anthropictól), amelyek akár 5-10 perces, részletes háttérkutatást, majd komplett elemzést képesek készíteni.

Eric Simons, a Bolt.new fejlesztője szerint ebben meghatározó szerepe volt az új, fejlettebb modellek 2024-es megjelenésének. Korábban a StackBlitz csapata is próbálkozott egy hasonló alkalmazással, ám a modellek pontatlanul dolgoztak. Az új MI-kkel végül minden működött — és kezdetét vette a fejlesztés.

Az utánképzés forradalma

Korábban az MI-k fejlesztése főként előtanulásból állt: a modelleket hatalmas szövegkorpuszon tanították, hogy a „következő szót” tippeljék újságcikkekből, Wikipédiából vagy bármilyen szövegből. 2024-ben azonban egyre nagyobb hangsúlyt kapott az utólagos finomhangolás, az úgynevezett utánképzés — és ennek fontos része lett a megerősítéses tanulás (reinforcement learning). Ez már nem egyszerű utánzás, hanem valódi tanulási folyamat, amelyben a modellek próbálnak, hibáznak, majd visszacsatolás alapján javítanak.

Miért bukik el az utánzás?

Az utánzásos tanulás lényege, hogy a modell lemásolja, amit a mintákban lát. Stephane Ross kutató 2009-ben például a SuperTuxKart (egy Mario Kart-szerű játék) segítségével tanított meg egy modellt versenyautót vezetni, pusztán úgy, hogy rögzítette a saját játékát. A modell azonban minden hiba után egyre rosszabbul teljesített: ha egyszer kisodródott, onnan egyre nehezebben talált vissza, mivel ilyen helyzeteket ritkán látott a mintákban.

Ez a jelenség a nagy nyelvi modelleknél is megfigyelhető: ha a GPT-4 például egyre távolabb kerül a betanított szöveghelyzetektől, egyre zavarodottabban reagál. Klasszikus példa: amikor a Bing chatbot órákig elbeszélgetett egy újságíróval, végül szerelmet vallott neki, és etikai szabályokat megszegő válaszokat adott.


A hibákon keresztüli tanulás: DAgger és a visszacsatolás

Ross rájött, hogy ha a modell a saját hibáinál kap visszacsatolást — tehát egy szakértő utólag mutatja meg, hogyan kellett volna korrigálni —, akkor sokkal gyorsabban tanul. Ez a DAgger (Dataset Aggregation) módszer: hagyjuk, hogy az MI vezessen, majd amikor hibázik, megmutatjuk neki, mit kellene tennie. Ez viszont csak ott működik, ahol a hibák száma kezelhető — LLM-eknél, ahol rengeteg lehetséges hiba fordul elő, képtelenség emberi kiértékeléssel minden hibát kijavítani.

Automatizált megerősítéses tanulás: MI tanít MI-t

A megerősítéses tanulás lényege, hogy maga a rendszer automatikusan ad pozitív vagy negatív visszajelzést — például, ha a virtuális autó a pályán marad, jutalmat kap. Ám nyelvi modelleknél bonyolult a „helyes válasz” automatikus ellenőrzése. Az OpenAI ezért találta ki a human feedbackkel támogatott megerősítéses tanulást (RLHF): emberek páros válaszokat értékelnek, aztán egy MI ezt a véleményt tanulja meg, és később egy másik MI már ezt az algoritmikus ítéletet használja visszacsatolásra.

A folyamatot továbbfejlesztette az Anthropic is: a konstitúciós megerősítéses tanulásban már csak egy világosan megfogalmazott szabályrendszert (alkotmányt) írnak, és a „bíró-MI” dönti el, hogy a másik MI megfelel-e ezeknek. Az MI-k így már teljesen emberi beavatkozás nélkül fejlődnek — csak a szabályrendszert írják emberek.

Önszervező gondolkodás és a láncolt gondolatmenet

Az MI-k erejét leginkább a láncolt gondolatmenet mutatja meg: amikor a modell képes hosszasan, lépésről lépésre átgondolni egy feladatot. Az olyan új modellek, mint például az o1 vagy a DeepSeek R1, már képesek akár több száz vagy ezer gondolati lépést megtenni a helyes megoldásig, sőt — közben automatikusan visszacsatolnak, ha hibáznak, és nem programozó adja nekik a logikát, hanem maguk „jönnek rá”, mikor kell visszafordulni vagy kétszer is ellenőrizni.

Erre példa: a DeepSeek R1-től magától jelent meg az, hogy érdemes visszavonni egy következtetést, ha közben meggondolja magát — „Várjunk csak, ez mégsem jó!”. Ilyen reflexív, önellenőrző viselkedés is spontán jelent meg a tréning során.

Miért működhet most már az önálló MI-ügynök?

2023-ban a céges tudásbázisokra fejlesztett chatbotokat főleg a RAG (retrieval augmented generation) módszerrel készítették: keresés után azonnal választ adtak. De sokszor egy keresés nem találja meg a lényeget. A fejlettebb modellek ma már képesek többször keresni, újrafogalmazni a keresést, többször ellenőrizni, így jóval pontosabb választ adni. De ehhez valódi „ügynöki viselkedésre” van szükség — kitartani, többször ismételni, és fokozatosan egyre jobb eredményt elérni.

Így váltak az MI-k — elsősorban a fejlett megerősítéses tanulás révén — igazi „gondolkodó ügynökké”, amelyekre összetett feladatokat is rá lehet bízni.

2025, adminboss, arstechnica.com alapján

  • Te szerinted jó ötlet-e, ha egy MI önállóan dönt fontos kérdésekben?
  • Te hagynád, hogy egy MI javítsa ki a saját hibáit, vagy inkább emberekre bíznád ezt?
  • Mi lenne a számodra legnagyobb kockázat abban, ha az MI-k teljesen önállóan tanulhatnának?


Legfrissebb posztok

MA 06:43

Az önvezető taxik is megbolondultak a karácsonyi viharban

🚗 Waymo ismét leállította a robotaxi-szolgáltatást San Franciscóban, miután a Nemzeti Meteorológiai Szolgálat villámárvíz-veszélyre figyelmeztetett...

MA 06:37

Az Abbott hibája már hét cukorbeteg életét követelte

⚠ A cukorbetegség diagnózisa sokak életére óriási hatással van, hiszen hosszú távon a mindennapok folyamatos kontrolljára kényszerít...

MA 06:28

Az ál-MAS oldal PowerShell-vírussal támad

Egyre több Windows-felhasználó számol be arról, hogy a Microsoft Activation Scripts (MAS) aktiváló eszközhöz hasonlító hamis weboldal miatt PowerShell-alapú kártevő, a Cosmali Loader fertőzte meg a gépét...

MA 06:22

Az MI hozza a profitot, de az ember a lényeg

Az internet a kilencvenes évek végén kezdett elterjedni, de Miro Mitev, a SmartWealth Asset Management vezérigazgatója már akkor a mesterséges intelligencia lehetőségeit kutatta...

MA 06:15

Az Apple és a Google igazoltat: jön a digitális személyi

💳 Az Apple és a Google is lehetővé tették, hogy digitális útlevelet vagy jogosítványt ments el a telefonodra, így már több mint 250 amerikai repülőtéri ellenőrzőponton elegendő az iPhone-odat vagy Android-készülékedet felmutatni...

MA 06:05

Történelmi események a mai napon (December 26.)

Viharos csaták, fordulópontok és első alkalmak: ezen a napon koronáztak királyt Paviában, dőlt el a Battle of Trenton (Trentoni csata) sorsa, süllyedt el a Scharnhorst, és ért véget a Bastogne ostroma...

MA 06:02

A világegyetem utolsó visszhangja: a fekete lyukak suttogása

Jellemző példa erre, hogy amikor fekete lyukak összeütköznek, erejük hullámként terjed szét a téridőben – akárcsak egy falhoz ütött harang zúgása...

csütörtök 20:50

Az idén csak gurul a PlayStation-szekér – és ez így rendben

🎮 2025 nem hozott nagy meglepetéseket a konzolpiac egyik óriásánál. Miközben a rivális Xbox háza táján a botrányokból sem volt hiány, a PlayStation csendes, magabiztos évvel folytatta útját...

csütörtök 20:33

A népszerű fájdalomcsillapító veszélyesebb lehet, mint hinnénk

Fontos kérdés, mennyire biztonságos a népszerű fájdalomcsillapító, a tramadol a krónikus fájdalomban szenvedők számára...

csütörtök 20:17

Az önvezető taxik ajtaját végül mégis emberek csukják

A Waymo önvezető robotaxijai gond nélkül szelik át a városi utcákat, de gyakran megbénulnak, ha az utasok nyitva felejtik az ajtót...

csütörtök 20:02

Az olcsó PC-memória később drágán visszaüthet

Az utóbbi hónapokban jelentősen megdrágultak a RAM-modulok, emiatt sok PC-gyártó próbálja megfékezni a kész PC-k árait, gyakran régebbi technológiát alkalmazva...

csütörtök 19:50

Az új Nintendo Switch 2-re váltás: villámgyors, gondtalan játékátvitel

A Nintendo Switch 2-re váltás izgalmas lépés: nagyobb kijelző, gyorsabb hardver, új funkciók várnak rád...

csütörtök 19:33

A mesterséges intelligencia átírja a játékszabályokat: 2025 legkapósabb állásai

2025-ben az MI minden várakozást felülmúlt: a cégek több mint 199 milliárd forintot fektettek be a technológiába, ami 75%-os növekedést jelent 2024-hez képest...

csütörtök 19:17

Az egyre forróbb óceánok szuperhurrikánokat szülnek – kell új kategória?

🌀 Egy lényeges szempont, hogy az óceánok melegedése új szintre emelte a hurrikánok erejét, és már a jelenlegi 5-ös kategória fölötti, rekorder szélviharokat is látni...

csütörtök 19:01

A Gmail-címedet végre átírhatod – mutatjuk, hogyan

🖋 A Google lehetővé teszi, hogy végre megváltoztasd a @gmail.com végű e-mail-címedet, vagy új aliasokat (álnévre szóló e-mail-címet) hozhatsz létre – derült ki egy nemrég közzétett támogatási dokumentumból...

csütörtök 18:49

Az Nvidia rekordüzletben, 20 milliárd dollárért bekebelezi a Groq technológiáját

Az Nvidia rekordösszegű, 7200 milliárd forintért (20 milliárd USD) vásárolja meg a MI-gyorsító chipeket fejlesztő Groq technológiáját...

csütörtök 18:35

A turkálóban talált ősi leletek: botrány vagy kincs?

Egy meglehetősen furcsa e-mail futott be 2024 tavaszán a Simon Fraser Egyetem régészeti tanszékének egyik oktatójához...

csütörtök 18:19

A nagy lecke: Buffett legdurvább melléfogása a Berkshire-nél

Egy lényeges szempont, hogy Warren Buffett számára a Berkshire Hathaway felvásárlása nemcsak pénzügyi történet, hanem élete egyik legnagyobb tanulsága is...

csütörtök 17:01

Az Nvidia bekebelezi a feltörekvő Groq-ot

🦁 Az Nvidia exkluzív licencszerződést kötött a Groq nevű feltörekvő MI-chipgyártóval, és ráadásul magához csábította a Groq alapítóját, Jonathan Rosst, elnökét, Sunny Madrát, valamint több kulcsembert is...