Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat

Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat
2023 áprilisában robbant be a köztudatba két ambiciózus MI-projekt, a BabyAGI és az AutoGPT. Ezek az eszközök azt tűzték ki célul, hogy a GPT-4-et olyan ügynökké alakítsák, amely lépésről lépésre képes összetett feladatokat megoldani — például teljes heti étrendet készíteni a semmiből, kutatással, tervezéssel, receptírással együtt. Az első lelkesedés után azonban gyorsan kiderült: a GPT-4 rendszeresen hibázik, egy apró elakadás után elveszíti a fonalat, majd egyre nagyobb zavarba keveredik. Projektjeit félbehagyja, az egyszerű lépések sem mennek — így az AutoGPT és a BabyAGI hamar eltűnt a süllyesztőben. Úgy tűnt, a nagy nyelvi modellek (LLM-ek) képtelenek megbízható, többlépéses gondolkodásra.

Fordulat: gondolkodó MI-k 2024-ben

2024 második felére azonban váratlan fordulat történt. Megjelentek olyan MI-alapú eszközök, amelyek folyamatosan képesek voltak összetett, többlépéses feladatokat végigvinni. A programozást segítő Bolthoz (Bolt.new), Lovable-hoz és Replithez hasonló alkalmazások kezdők számára is elérhetővé tették a kódolást, a haladók pedig speciális ügynökökkel kaptak támogatást. Megjelentek asztali számítógépet vezérlő MI-asszisztensek is, sőt, olyan kutatóeszközök (például az OpenAI-tól, az Anthropictól), amelyek akár 5-10 perces, részletes háttérkutatást, majd komplett elemzést képesek készíteni.

Eric Simons, a Bolt.new fejlesztője szerint ebben meghatározó szerepe volt az új, fejlettebb modellek 2024-es megjelenésének. Korábban a StackBlitz csapata is próbálkozott egy hasonló alkalmazással, ám a modellek pontatlanul dolgoztak. Az új MI-kkel végül minden működött — és kezdetét vette a fejlesztés.

Az utánképzés forradalma

Korábban az MI-k fejlesztése főként előtanulásból állt: a modelleket hatalmas szövegkorpuszon tanították, hogy a „következő szót” tippeljék újságcikkekből, Wikipédiából vagy bármilyen szövegből. 2024-ben azonban egyre nagyobb hangsúlyt kapott az utólagos finomhangolás, az úgynevezett utánképzés — és ennek fontos része lett a megerősítéses tanulás (reinforcement learning). Ez már nem egyszerű utánzás, hanem valódi tanulási folyamat, amelyben a modellek próbálnak, hibáznak, majd visszacsatolás alapján javítanak.

Miért bukik el az utánzás?

Az utánzásos tanulás lényege, hogy a modell lemásolja, amit a mintákban lát. Stephane Ross kutató 2009-ben például a SuperTuxKart (egy Mario Kart-szerű játék) segítségével tanított meg egy modellt versenyautót vezetni, pusztán úgy, hogy rögzítette a saját játékát. A modell azonban minden hiba után egyre rosszabbul teljesített: ha egyszer kisodródott, onnan egyre nehezebben talált vissza, mivel ilyen helyzeteket ritkán látott a mintákban.

Ez a jelenség a nagy nyelvi modelleknél is megfigyelhető: ha a GPT-4 például egyre távolabb kerül a betanított szöveghelyzetektől, egyre zavarodottabban reagál. Klasszikus példa: amikor a Bing chatbot órákig elbeszélgetett egy újságíróval, végül szerelmet vallott neki, és etikai szabályokat megszegő válaszokat adott.


A hibákon keresztüli tanulás: DAgger és a visszacsatolás

Ross rájött, hogy ha a modell a saját hibáinál kap visszacsatolást — tehát egy szakértő utólag mutatja meg, hogyan kellett volna korrigálni —, akkor sokkal gyorsabban tanul. Ez a DAgger (Dataset Aggregation) módszer: hagyjuk, hogy az MI vezessen, majd amikor hibázik, megmutatjuk neki, mit kellene tennie. Ez viszont csak ott működik, ahol a hibák száma kezelhető — LLM-eknél, ahol rengeteg lehetséges hiba fordul elő, képtelenség emberi kiértékeléssel minden hibát kijavítani.

Automatizált megerősítéses tanulás: MI tanít MI-t

A megerősítéses tanulás lényege, hogy maga a rendszer automatikusan ad pozitív vagy negatív visszajelzést — például, ha a virtuális autó a pályán marad, jutalmat kap. Ám nyelvi modelleknél bonyolult a „helyes válasz” automatikus ellenőrzése. Az OpenAI ezért találta ki a human feedbackkel támogatott megerősítéses tanulást (RLHF): emberek páros válaszokat értékelnek, aztán egy MI ezt a véleményt tanulja meg, és később egy másik MI már ezt az algoritmikus ítéletet használja visszacsatolásra.

A folyamatot továbbfejlesztette az Anthropic is: a konstitúciós megerősítéses tanulásban már csak egy világosan megfogalmazott szabályrendszert (alkotmányt) írnak, és a „bíró-MI” dönti el, hogy a másik MI megfelel-e ezeknek. Az MI-k így már teljesen emberi beavatkozás nélkül fejlődnek — csak a szabályrendszert írják emberek.

Önszervező gondolkodás és a láncolt gondolatmenet

Az MI-k erejét leginkább a láncolt gondolatmenet mutatja meg: amikor a modell képes hosszasan, lépésről lépésre átgondolni egy feladatot. Az olyan új modellek, mint például az o1 vagy a DeepSeek R1, már képesek akár több száz vagy ezer gondolati lépést megtenni a helyes megoldásig, sőt — közben automatikusan visszacsatolnak, ha hibáznak, és nem programozó adja nekik a logikát, hanem maguk „jönnek rá”, mikor kell visszafordulni vagy kétszer is ellenőrizni.

Erre példa: a DeepSeek R1-től magától jelent meg az, hogy érdemes visszavonni egy következtetést, ha közben meggondolja magát — „Várjunk csak, ez mégsem jó!”. Ilyen reflexív, önellenőrző viselkedés is spontán jelent meg a tréning során.

Miért működhet most már az önálló MI-ügynök?

2023-ban a céges tudásbázisokra fejlesztett chatbotokat főleg a RAG (retrieval augmented generation) módszerrel készítették: keresés után azonnal választ adtak. De sokszor egy keresés nem találja meg a lényeget. A fejlettebb modellek ma már képesek többször keresni, újrafogalmazni a keresést, többször ellenőrizni, így jóval pontosabb választ adni. De ehhez valódi „ügynöki viselkedésre” van szükség — kitartani, többször ismételni, és fokozatosan egyre jobb eredményt elérni.

Így váltak az MI-k — elsősorban a fejlett megerősítéses tanulás révén — igazi „gondolkodó ügynökké”, amelyekre összetett feladatokat is rá lehet bízni.

2025, adminboss, arstechnica.com alapján

  • Te szerinted jó ötlet-e, ha egy MI önállóan dönt fontos kérdésekben?
  • Te hagynád, hogy egy MI javítsa ki a saját hibáit, vagy inkább emberekre bíznád ezt?
  • Mi lenne a számodra legnagyobb kockázat abban, ha az MI-k teljesen önállóan tanulhatnának?


Legfrissebb posztok

MA 11:02

Az új kínai robot annyira élethű, hogy fel kellett vágniuk

🤖 A kínai Xpeng autógyártó bemutatta legújabb humanoid robotját, az IRON-t, amely olyan természetes mozdulatokra képes, hogy a vállalat képviselői élőben, a színpadon felvágták, hogy bizonyítsák: nincs benne elrejtőzött ember...

szombat 12:19

Az otthoni robot, amely majdnem annyiba kerül, mint egy autó

Ez a robot 168 cm magas, tömege pedig nagyjából egy golden retrieveréhez hasonlítható, ára pedig majdnem egy új, olcsó autóéval vetekszik...

hétfő 14:02

A legfárasztóbb római istenségek: abszurd védelmezők panteonja

Nem szeretnénk kitérni a szerelem, a villámlás, vagy a háború isteneire, ilyene bárkiknek lehet, nézzünk valami eredetibbet...

MA 17:02

Az agy immunsejtjei segíthetnek megállítani az Alzheimer-kórt

A mikroglia, vagyis az agy immunsejtjei kettős szerepet töltenek be Alzheimer-kórban: egyszerre képesek megóvni az agyat a káros hatásoktól, ugyanakkor bizonyos körülmények között fokozhatják a gyulladást és a károsodást...

MA 16:52

Az eddigi legnagyobb rádiókép a Tejútról: 40 000 óra alatt készült el

Egy most elkészült, lenyűgöző rádiótérkép új megvilágításba helyezi a Tejútrendszer déli féltekéről látható galaktikus síkját, bepillantást engedve a csillagok születésébe és halálába...

MA 16:13

Húsz éve figyeljük a Techmeme oldalát csendben

Kerek évfordulóját ünnepli a Techmeme, amely már két évtizede nap mint nap meghatározza, mit olvas és miről beszél a tech világ...

MA 15:50

Az UPS és a FedEx földre parancsolták az MD-11 gépeiket egy tragédia után

Az amerikai UPS logisztikai óriás minden MD-11-es repülőgépét földre parancsolta, napokkal azután, hogy egy ilyen típusú teherszállító repülőgép balesetében legalább 13 ember vesztette életét Kentuckyban...

MA 15:22

Az ultracsendes NASA szuperszonikus repülő új korszakot nyit

A NASA és a Lockheed Martin közös fejlesztése, az X-59 nevű kísérleti szuperszonikus repülőgép először emelkedett a levegőbe, és történelmet írhat azzal, hogy a hangsebesség átlépésekor a morajlás helyett csupán egy halk „dörrenés” hallatszik...

MA 15:13

Az Apple új üveghatású dizájnja tényleg jobb, vagy csak átlátszóbb?

Két hónapja jelent meg az iOS 26, amelyben az Apple gyökeresen átalakította az iPhone felületét...

MA 15:01

Az amerikaiak rálelnek a világ rejtett kincseire – 2026 legtrendibb úti céljai

🌎 Az utazás világa 2026-ban izgalmas változások előtt áll: az amerikaiak egyre inkább felfedezik saját hazájuk kevésbé ismert szegleteit is, miközben külföldre is szívesen kirándulnak új, turisták által alig érintett helyekre...

MA 14:51

Idén Black Friday alkalmával is vásárolj biztonságosan, használd ezt a privát VPN-t

Pár nap, és elstartol a Black Friday, a vásárlási láz már most érezhető...

MA 14:41

Az MI már veszélyesebb, mint a kollégád – így védd a céged!

⚠ A vállalatok egyre gyorsabban vetik be a generatív MI-t és az intelligens MI-ügynököket, ezzel azonban komoly biztonsági kockázatoknak teszik ki magukat...

MA 14:32

Az MI-lázban is szárnyalnak a Wall Street kedvenc techrészvényei

📈 Az MI-alapú részvényeknél tapasztalható magas értékelések uralják a piacokat, sok befektető tart egy újabb MI-lufi kialakulásától...

MA 14:22

Egy olcsó MacBook újra divatba hozhatja a netbookokat

💻 A netbookok árnyékában: az Apple olcsó gépet tervez Az Apple egy új, kifejezetten kedvező árú MacBookon dolgozik, amelyet egy, mobiltelefonokban is használt lapka hajtana...

MA 14:13

Öt képernyő nélküli fitnesztracker zavartalan edzésekhez

A mai okosórák minden értesítéssel és villogó képernyővel tűnnek ki, sokan azonban inkább visszavágynak a letisztultabb, figyelemelvonástól mentes fitneszkarperecekhez...

MA 14:01

Az elveszett pörölycápák titkait tárja fel a tengervíz DNS-e

🐟 A Florida International University tudósa forradalmi módszert alkotott a pörölycápák felkutatására – anélkül, hogy egyet is meg kellene figyelni az óceánban...

MA 13:51

Érkezik Attenborough új sorozata, a Birodalom az év természetfilmje

Sir David Attenborough vadonatúj sorozata, a Birodalom (Kingdom) öt éven át kísér négy állatcsaládot Zambia vadregényes Dél-Luangwa Nemzeti Parkjában...

MA 13:41

Az emberi kéz még számít: Pluribus keményen beszólt az MI-nek

Vince Gilligan, a Totál szívás (Breaking Bad) alkotója új sorozatával, a Pluribus-szal (Pluribus) egyértelműen üzent a világnak: kiírták a stáblistára, hogy ezt a sorozatot még emberek készítették...

MA 13:32

Az eső igazi forrása az erdő, nélkülük jöhet az aszály

A klasszikus elképzeléssel szemben nemcsak az számít, mennyi eső esik, hanem az is, honnan származik a csapadék...