2025. 07. 18., 08:30

Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat

Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat
2023 áprilisában robbant be a köztudatba két ambiciózus MI-projekt, a BabyAGI és az AutoGPT. Ezek az eszközök azt tűzték ki célul, hogy a GPT-4-et olyan ügynökké alakítsák, amely lépésről lépésre képes összetett feladatokat megoldani — például teljes heti étrendet készíteni a semmiből, kutatással, tervezéssel, receptírással együtt. Az első lelkesedés után azonban gyorsan kiderült: a GPT-4 rendszeresen hibázik, egy apró elakadás után elveszíti a fonalat, majd egyre nagyobb zavarba keveredik. Projektjeit félbehagyja, az egyszerű lépések sem mennek — így az AutoGPT és a BabyAGI hamar eltűnt a süllyesztőben. Úgy tűnt, a nagy nyelvi modellek (LLM-ek) képtelenek megbízható, többlépéses gondolkodásra.

Fordulat: gondolkodó MI-k 2024-ben

2024 második felére azonban váratlan fordulat történt. Megjelentek olyan MI-alapú eszközök, amelyek folyamatosan képesek voltak összetett, többlépéses feladatokat végigvinni. A programozást segítő Bolthoz (Bolt.new), Lovable-hoz és Replithez hasonló alkalmazások kezdők számára is elérhetővé tették a kódolást, a haladók pedig speciális ügynökökkel kaptak támogatást. Megjelentek asztali számítógépet vezérlő MI-asszisztensek is, sőt, olyan kutatóeszközök (például az OpenAI-tól, az Anthropictól), amelyek akár 5-10 perces, részletes háttérkutatást, majd komplett elemzést képesek készíteni.

Eric Simons, a Bolt.new fejlesztője szerint ebben meghatározó szerepe volt az új, fejlettebb modellek 2024-es megjelenésének. Korábban a StackBlitz csapata is próbálkozott egy hasonló alkalmazással, ám a modellek pontatlanul dolgoztak. Az új MI-kkel végül minden működött — és kezdetét vette a fejlesztés.

Az utánképzés forradalma

Korábban az MI-k fejlesztése főként előtanulásból állt: a modelleket hatalmas szövegkorpuszon tanították, hogy a „következő szót” tippeljék újságcikkekből, Wikipédiából vagy bármilyen szövegből. 2024-ben azonban egyre nagyobb hangsúlyt kapott az utólagos finomhangolás, az úgynevezett utánképzés — és ennek fontos része lett a megerősítéses tanulás (reinforcement learning). Ez már nem egyszerű utánzás, hanem valódi tanulási folyamat, amelyben a modellek próbálnak, hibáznak, majd visszacsatolás alapján javítanak.

Miért bukik el az utánzás?

Az utánzásos tanulás lényege, hogy a modell lemásolja, amit a mintákban lát. Stephane Ross kutató 2009-ben például a SuperTuxKart (egy Mario Kart-szerű játék) segítségével tanított meg egy modellt versenyautót vezetni, pusztán úgy, hogy rögzítette a saját játékát. A modell azonban minden hiba után egyre rosszabbul teljesített: ha egyszer kisodródott, onnan egyre nehezebben talált vissza, mivel ilyen helyzeteket ritkán látott a mintákban.

Ez a jelenség a nagy nyelvi modelleknél is megfigyelhető: ha a GPT-4 például egyre távolabb kerül a betanított szöveghelyzetektől, egyre zavarodottabban reagál. Klasszikus példa: amikor a Bing chatbot órákig elbeszélgetett egy újságíróval, végül szerelmet vallott neki, és etikai szabályokat megszegő válaszokat adott.


A hibákon keresztüli tanulás: DAgger és a visszacsatolás

Ross rájött, hogy ha a modell a saját hibáinál kap visszacsatolást — tehát egy szakértő utólag mutatja meg, hogyan kellett volna korrigálni —, akkor sokkal gyorsabban tanul. Ez a DAgger (Dataset Aggregation) módszer: hagyjuk, hogy az MI vezessen, majd amikor hibázik, megmutatjuk neki, mit kellene tennie. Ez viszont csak ott működik, ahol a hibák száma kezelhető — LLM-eknél, ahol rengeteg lehetséges hiba fordul elő, képtelenség emberi kiértékeléssel minden hibát kijavítani.

Automatizált megerősítéses tanulás: MI tanít MI-t

A megerősítéses tanulás lényege, hogy maga a rendszer automatikusan ad pozitív vagy negatív visszajelzést — például, ha a virtuális autó a pályán marad, jutalmat kap. Ám nyelvi modelleknél bonyolult a „helyes válasz” automatikus ellenőrzése. Az OpenAI ezért találta ki a human feedbackkel támogatott megerősítéses tanulást (RLHF): emberek páros válaszokat értékelnek, aztán egy MI ezt a véleményt tanulja meg, és később egy másik MI már ezt az algoritmikus ítéletet használja visszacsatolásra.

A folyamatot továbbfejlesztette az Anthropic is: a konstitúciós megerősítéses tanulásban már csak egy világosan megfogalmazott szabályrendszert (alkotmányt) írnak, és a „bíró-MI” dönti el, hogy a másik MI megfelel-e ezeknek. Az MI-k így már teljesen emberi beavatkozás nélkül fejlődnek — csak a szabályrendszert írják emberek.

Önszervező gondolkodás és a láncolt gondolatmenet

Az MI-k erejét leginkább a láncolt gondolatmenet mutatja meg: amikor a modell képes hosszasan, lépésről lépésre átgondolni egy feladatot. Az olyan új modellek, mint például az o1 vagy a DeepSeek R1, már képesek akár több száz vagy ezer gondolati lépést megtenni a helyes megoldásig, sőt — közben automatikusan visszacsatolnak, ha hibáznak, és nem programozó adja nekik a logikát, hanem maguk „jönnek rá”, mikor kell visszafordulni vagy kétszer is ellenőrizni.

Erre példa: a DeepSeek R1-től magától jelent meg az, hogy érdemes visszavonni egy következtetést, ha közben meggondolja magát — „Várjunk csak, ez mégsem jó!”. Ilyen reflexív, önellenőrző viselkedés is spontán jelent meg a tréning során.

Miért működhet most már az önálló MI-ügynök?

2023-ban a céges tudásbázisokra fejlesztett chatbotokat főleg a RAG (retrieval augmented generation) módszerrel készítették: keresés után azonnal választ adtak. De sokszor egy keresés nem találja meg a lényeget. A fejlettebb modellek ma már képesek többször keresni, újrafogalmazni a keresést, többször ellenőrizni, így jóval pontosabb választ adni. De ehhez valódi „ügynöki viselkedésre” van szükség — kitartani, többször ismételni, és fokozatosan egyre jobb eredményt elérni.

Így váltak az MI-k — elsősorban a fejlett megerősítéses tanulás révén — igazi „gondolkodó ügynökké”, amelyekre összetett feladatokat is rá lehet bízni.

2025, adminboss, arstechnica.com alapján

  • Te szerinted jó ötlet-e, ha egy MI önállóan dönt fontos kérdésekben?
  • Te hagynád, hogy egy MI javítsa ki a saját hibáit, vagy inkább emberekre bíznád ezt?
  • Mi lenne a számodra legnagyobb kockázat abban, ha az MI-k teljesen önállóan tanulhatnának?


Legfrissebb posztok

APP
hétfő 09:11

APPok, Amik Ingyenesek MA, 5/25

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ContactVault Pro (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) Monthly Dystopia (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) ImgRef (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) War Mongrels (iPhone/iPad) FormatX – All Media...

APP
vasárnap 09:11

APPok, Amik Ingyenesek MA, 5/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Inkflow Plus Visual Notebook (iPhone/iPad) FormatX – All Media Converter (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) ImgRef (iPhone/iPad) ContactVault Pro (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) Between Dates Calendar...

APP
szombat 09:11

APPok, Amik Ingyenesek MA, 5/23

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     War Mongrels (iPhone/iPad) Monthly Dystopia (iPhone/iPad) FormatX – All Media Converter (iPhone/iPad) ImgRef (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) ContactVault...

péntek 21:55

A szendvicsmolekulák titokzatos, rejtett állapota

Az 1950-es évek óta fontos szerepet töltenek be a metallocének a fémorganikus kémia világában...

péntek 21:45

A Subnautica 2 hátborzongató lenne, ha végre csendben maradna

🦈 A Subnautica 2 bemutatja, milyen is az, amikor valaki igazán egyedül marad egy idegen világban...

péntek 21:34

A világ legősibb sziklarajza 67 800 éves? Inog a bizonyíték?

Fontos kérdés, hogy mennyire megbízhatóak azok az eredmények, amelyek szerint a világ legősibb barlangrajzainak kora akár 67 800 év...

péntek 21:22

Péntek estére gyengül a bitcoin, Warsh átveszi a Fed irányítását

📈 Ez a jelenség jól illusztrálható azzal, hogy péntek délután a kriptodevizák árfolyama csendben csúszik lefelé, miközben a tőzsdék egyelőre kitartanak...

péntek 21:12

Az Einstein–Rosen-híd felfedheti az idő rejtett tükrét

Felmerül a kérdés, hogy valóban kaput nyit-e Einstein féreglyuka az univerzum különböző pontjai között, vagy inkább egy sokkal izgalmasabb és kevésbé megfogható jelentést hordoz...

péntek 20:56

A Riot új rendszere 2 milliós papírnehezékké teszi a csaló hardvereket

A videojátékosok és a csalók közötti küzdelem új fordulatot vett. A fejlesztők eszköztára egyre bővül, de a csalók is évről évre új módszerekkel próbálkoznak...

péntek 20:23

Az elavult B12-ajánlások az agyadra is veszélyt jelenthetnek

💡 Az időskorúak egészségesnek tűnő B12-vitaminszintje mögött lappanghatnak agyi károsodások és romló gondolkodási képességek...

péntek 20:12

A fókakölykök rejtélyes halála mögött: kannibál fókák a Sable-szigeten

Évtizedeken át rejtély övezte a Sable-sziget fókakölykeit sújtó különös haláleseteket. Az Atlanti-óceán északkeleti részén, Új-Skócia partjaitól nem messze fekvő szigetről folyamatosan jelentettek elpusztult fókakölyköket, testükön hátborzongató, spirális sebekkel...

péntek 19:55

A milliárdosklubban már Messi is Beckham oldalán, Inter Miamival

Érdemes megvizsgálni, hogyan vált Lionel Messi a világ egyik legsikeresebb futballista-befektetőjévé alig három év alatt az Egyesült Államokban...

péntek 19:45

A D&B 642 milliós cégadatbázisát újraépítette az MI-ügynököknek

💻 Közel két évszázados munka eredményeként a Dun & Bradstreet (D&B) kialakított egy hatalmas, világszerte 642 millió céget lefedő üzleti adattárházat...

péntek 19:34

A foci-vb-re készülve ez az 5 tévéfunkció számít

A foci-világbajnokság közeledtével sokan döntenek úgy, hogy érdemes új, nagyobb vagy jobb minőségű tévét beszerezni...

péntek 19:23

Az IREN társalapítója: Az MI-t az infrastruktúra fogja vissza, nem a chipek

A világ MI-fejlesztési láza töretlen, ám a növekedés igazi akadálya már nem a chipek elérhetősége, hanem a fizikai infrastruktúra...

péntek 19:12

Az új Modern Warfare mindent visz: soha nem látott élmény jön

Hivatalosan is visszatér a Modern Warfare-sorozat – az Activision bejelentette, hogy a következő Call of Duty-játék egy meghatározó, új epizód lesz, amelyet az Infinity Ward fejleszt...

péntek 19:01

A nagy fordulat: a marhahús nem növeli a cukorbetegség kockázatát

Az Egyesült Államokban több mint 135 millió felnőtt szenved 2-es típusú cukorbetegségben vagy tartozik a veszélyeztetettek közé...

péntek 18:56

A Spotify új AI-ja engedélyezett, fizetett remixeket és feldolgozásokat generál

Érdemes megvizsgálni, hogy a Spotify egy olyan új eszközt fejleszt, amellyel a felhasználók mesterséges remixeket és feldolgozásokat készíthetnek kedvenc dalaikból...

péntek 18:34

A hétköznapi ételek rejtett rákkeltő vegyszerei leleplezve

Első pillantásra talán egészségesnek tűnik minden, ami a tányérodon van, hiszen figyelsz a napi mozgásra, a kalóriákra, és szívesen válogatsz zöldségekből, gyümölcsökből...

péntek 18:23

A fogyasztói bizalom rekordmélyen májusban, az iráni háború szítja az inflációs félelmeket

Májusban többéves mélypontra zuhant a fogyasztói bizalom, miközben az amerikai–iráni háború és a magas olajárak miatt egyre többen tartanak az árak újabb emelkedésétől...

péntek 16:22

Az Ark Invest négy nap alatt 12,5 millió dollárért Bullish-részvényt vett

Miközben a digitális eszközök árfolyama hetek óta hullámzik, az Ark Invest ismét kihasználta az alkalmat, hogy megerősítse pozícióját a kriptoszektorban...

péntek 16:12

A Microsoft orvosolta az eltűnő Windows 11-asztal gondját: jön a javítás

Az utóbbi hetekben sok Windows 11-felhasználó találkozott különös hibákkal: az asztal teljesen eltűnt, a tálca megfagyott, a Fájlkezelő (File Explorer) vagy a Feladatnézet (Task View) akadozott, vagy éppen egyáltalán nem válaszolt...

péntek 16:01

Az ősi kémiai trükk új üveget hoz: CO2-t és hidrogént fog be

🧠 Az üveggyártás múltjából ismert trükköt a jövő szolgálatába állították a kutatók, akik egy új típusú üveget fejlesztettek ki, amely képes megkötni a szén-dioxidot és a hidrogént...

péntek 15:56

A mesterséges intelligencia gyorsabban ontja a sérülékeny kódot, mint javítani tudnánk

A vállalatok egyre gyakrabban engednek át hibás, ismerten sebezhető kódot az éles rendszerekbe, és mára ez a hozzáállás szinte általánossá vált...

péntek 15:45

A Nereid kilóg a sorból: a James Webb kulcsa a Naprendszerhez

Neptunusz története évmilliárdokkal ezelőtt kezdődött, amikor a bolygó még épp csak kialakult a Naprendszerben...

péntek 15:34

Az MI utoléri az emberi gondolkodást? Kutatók szerint csak mintázatokat magolt.

💡 Bár a tudományos világot megrázta egy tanulmány, amely azt állította, hogy egy haladó nyelvi modell képes az emberi gondolkodás pontos szimulálására, most mindez más megvilágításba került...