2025. 07. 18., 08:30

Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat

Az MI végre tényleg gondolkodik? Így győzték le a kudarcokat
2023 áprilisában robbant be a köztudatba két ambiciózus MI-projekt, a BabyAGI és az AutoGPT. Ezek az eszközök azt tűzték ki célul, hogy a GPT-4-et olyan ügynökké alakítsák, amely lépésről lépésre képes összetett feladatokat megoldani — például teljes heti étrendet készíteni a semmiből, kutatással, tervezéssel, receptírással együtt. Az első lelkesedés után azonban gyorsan kiderült: a GPT-4 rendszeresen hibázik, egy apró elakadás után elveszíti a fonalat, majd egyre nagyobb zavarba keveredik. Projektjeit félbehagyja, az egyszerű lépések sem mennek — így az AutoGPT és a BabyAGI hamar eltűnt a süllyesztőben. Úgy tűnt, a nagy nyelvi modellek (LLM-ek) képtelenek megbízható, többlépéses gondolkodásra.

Fordulat: gondolkodó MI-k 2024-ben

2024 második felére azonban váratlan fordulat történt. Megjelentek olyan MI-alapú eszközök, amelyek folyamatosan képesek voltak összetett, többlépéses feladatokat végigvinni. A programozást segítő Bolthoz (Bolt.new), Lovable-hoz és Replithez hasonló alkalmazások kezdők számára is elérhetővé tették a kódolást, a haladók pedig speciális ügynökökkel kaptak támogatást. Megjelentek asztali számítógépet vezérlő MI-asszisztensek is, sőt, olyan kutatóeszközök (például az OpenAI-tól, az Anthropictól), amelyek akár 5-10 perces, részletes háttérkutatást, majd komplett elemzést képesek készíteni.

Eric Simons, a Bolt.new fejlesztője szerint ebben meghatározó szerepe volt az új, fejlettebb modellek 2024-es megjelenésének. Korábban a StackBlitz csapata is próbálkozott egy hasonló alkalmazással, ám a modellek pontatlanul dolgoztak. Az új MI-kkel végül minden működött — és kezdetét vette a fejlesztés.

Az utánképzés forradalma

Korábban az MI-k fejlesztése főként előtanulásból állt: a modelleket hatalmas szövegkorpuszon tanították, hogy a „következő szót” tippeljék újságcikkekből, Wikipédiából vagy bármilyen szövegből. 2024-ben azonban egyre nagyobb hangsúlyt kapott az utólagos finomhangolás, az úgynevezett utánképzés — és ennek fontos része lett a megerősítéses tanulás (reinforcement learning). Ez már nem egyszerű utánzás, hanem valódi tanulási folyamat, amelyben a modellek próbálnak, hibáznak, majd visszacsatolás alapján javítanak.

Miért bukik el az utánzás?

Az utánzásos tanulás lényege, hogy a modell lemásolja, amit a mintákban lát. Stephane Ross kutató 2009-ben például a SuperTuxKart (egy Mario Kart-szerű játék) segítségével tanított meg egy modellt versenyautót vezetni, pusztán úgy, hogy rögzítette a saját játékát. A modell azonban minden hiba után egyre rosszabbul teljesített: ha egyszer kisodródott, onnan egyre nehezebben talált vissza, mivel ilyen helyzeteket ritkán látott a mintákban.

Ez a jelenség a nagy nyelvi modelleknél is megfigyelhető: ha a GPT-4 például egyre távolabb kerül a betanított szöveghelyzetektől, egyre zavarodottabban reagál. Klasszikus példa: amikor a Bing chatbot órákig elbeszélgetett egy újságíróval, végül szerelmet vallott neki, és etikai szabályokat megszegő válaszokat adott.


A hibákon keresztüli tanulás: DAgger és a visszacsatolás

Ross rájött, hogy ha a modell a saját hibáinál kap visszacsatolást — tehát egy szakértő utólag mutatja meg, hogyan kellett volna korrigálni —, akkor sokkal gyorsabban tanul. Ez a DAgger (Dataset Aggregation) módszer: hagyjuk, hogy az MI vezessen, majd amikor hibázik, megmutatjuk neki, mit kellene tennie. Ez viszont csak ott működik, ahol a hibák száma kezelhető — LLM-eknél, ahol rengeteg lehetséges hiba fordul elő, képtelenség emberi kiértékeléssel minden hibát kijavítani.

Automatizált megerősítéses tanulás: MI tanít MI-t

A megerősítéses tanulás lényege, hogy maga a rendszer automatikusan ad pozitív vagy negatív visszajelzést — például, ha a virtuális autó a pályán marad, jutalmat kap. Ám nyelvi modelleknél bonyolult a „helyes válasz” automatikus ellenőrzése. Az OpenAI ezért találta ki a human feedbackkel támogatott megerősítéses tanulást (RLHF): emberek páros válaszokat értékelnek, aztán egy MI ezt a véleményt tanulja meg, és később egy másik MI már ezt az algoritmikus ítéletet használja visszacsatolásra.

A folyamatot továbbfejlesztette az Anthropic is: a konstitúciós megerősítéses tanulásban már csak egy világosan megfogalmazott szabályrendszert (alkotmányt) írnak, és a „bíró-MI” dönti el, hogy a másik MI megfelel-e ezeknek. Az MI-k így már teljesen emberi beavatkozás nélkül fejlődnek — csak a szabályrendszert írják emberek.

Önszervező gondolkodás és a láncolt gondolatmenet

Az MI-k erejét leginkább a láncolt gondolatmenet mutatja meg: amikor a modell képes hosszasan, lépésről lépésre átgondolni egy feladatot. Az olyan új modellek, mint például az o1 vagy a DeepSeek R1, már képesek akár több száz vagy ezer gondolati lépést megtenni a helyes megoldásig, sőt — közben automatikusan visszacsatolnak, ha hibáznak, és nem programozó adja nekik a logikát, hanem maguk „jönnek rá”, mikor kell visszafordulni vagy kétszer is ellenőrizni.

Erre példa: a DeepSeek R1-től magától jelent meg az, hogy érdemes visszavonni egy következtetést, ha közben meggondolja magát — „Várjunk csak, ez mégsem jó!”. Ilyen reflexív, önellenőrző viselkedés is spontán jelent meg a tréning során.

Miért működhet most már az önálló MI-ügynök?

2023-ban a céges tudásbázisokra fejlesztett chatbotokat főleg a RAG (retrieval augmented generation) módszerrel készítették: keresés után azonnal választ adtak. De sokszor egy keresés nem találja meg a lényeget. A fejlettebb modellek ma már képesek többször keresni, újrafogalmazni a keresést, többször ellenőrizni, így jóval pontosabb választ adni. De ehhez valódi „ügynöki viselkedésre” van szükség — kitartani, többször ismételni, és fokozatosan egyre jobb eredményt elérni.

Így váltak az MI-k — elsősorban a fejlett megerősítéses tanulás révén — igazi „gondolkodó ügynökké”, amelyekre összetett feladatokat is rá lehet bízni.

2025, adminboss, arstechnica.com alapján

  • Te szerinted jó ötlet-e, ha egy MI önállóan dönt fontos kérdésekben?
  • Te hagynád, hogy egy MI javítsa ki a saját hibáit, vagy inkább emberekre bíznád ezt?
  • Mi lenne a számodra legnagyobb kockázat abban, ha az MI-k teljesen önállóan tanulhatnának?


Legfrissebb posztok

MA 09:29

Az MI a szövetségesed: így használd, hogy ne maradj le

Jerome Powell, az amerikai jegybank elnöke a Harvardon tett látogatásán szókimondó véleményt fogalmazott meg a Z generációnak...

MA 09:22

Az alvás titkos kapcsolója: több izom, kevesebb zsír, élesebb agy

😴 Felmerül a kérdés, hogy miért képes a mélyalvás annyira felpörgetni testünket és agyunkat, hogy nemcsak kipihentnek érezzük magunkat, hanem erősebbek, magasabbak, karcsúbbak, sőt akár élesebb gondolkodásúak is leszünk tőle...

MA 09:15

Az űr hőskora: Így indult útnak a két Voyager

Egy NASA-munkatárs egy kézikamerával járja be azokat a termeket, ahol a Voyager-program számítógépei teljesítettek szolgálatot 1977-ben...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 3/31

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Slayaway Camp (iPhone/iPad)A Slayaway Camp egy sötét humorú, 80-as évekbeli horrorfilmekre emlékeztető logikai játék...

MA 09:08

Az Instagram Plus új előfizetése titokzatos extrákkal csábít

💰 A Meta új előfizetéses szolgáltatást tesztel az Instagramon, amely exkluzív funkciókat kínál a felhasználóknak, például 24 óránál tovább látható sztorikat...

MA 09:02

A hétköznapi folyadékok is repednek, akár a szilárd anyagok

💧 A Drexel Egyetem kutatócsoportja alapjaiban forgatta fel a folyadékok fizikájával kapcsolatos eddigi elképzeléseket: egy hétköznapi folyadékot nyújtva olyan erős szakítóhatást fejtettek ki rá, amelynél úgy tört el, mint egy szilárd anyag...

MA 08:57

Az AirDrop végre megérkezik a Galaxy A-készülékekre?

🚀 A legújabb Samsung Galaxy S26-széria múlt héten már megkapta a várva várt AirDrop-támogatást a Quick Share szolgáltatáson keresztül, de úgy tűnik, hogy a funkció hamarosan elérhető lehet más készülékeken is...

MA 08:50

Az MI-adatszivárgás legújabb húzása: DNS-csempészés a ChatGPT-ben

OpenAI ismét reflektorfénybe került, miután egy súlyos biztonsági rést kellett befoltoznia a népszerű ChatGPT rendszerében...

MA 08:43

A Samsung új appja leszámol az utazási rosszulléttel

A fejlesztők gyakran kínálnak különféle trükköket az utazás közben fellépő rosszullét ellen, de a Samsung most egy egészen új megközelítéssel állt elő: a Galaxy-telefonokra letölthető Hearapy alkalmazás hanghullámokkal veszi fel a harcot a mozgás okozta panaszok ellen...

MA 08:36

Az egészségügyi óriásnál kitört az adatbotrány: páciensek adatai szivárogtak ki

💉 Egy nyolcórás hálózati leállással járó betörés során hackerek jutottak hozzá a CareCloud egyik kritikus rendszeréhez...

MA 08:29

A kvantumkorszak vártnál előbb csaphat le a Bitcoinra

Ami először apróságnak tűnt, most alapjaiban rengetheti meg a kriptovaluták védelmét: a Google kvantumszakértői szerint a Bitcoin és az Ethereum meglévő titkosítása már a vártnál jóval kevesebb kvantumkapacitással is legyőzhető...

MA 08:23

A kritikus nyersanyagok aranyárban: Kína fogságában a világ ellátása

💰 Az elmúlt hetekben három kevéssé ismert, ám nélkülözhetetlen nyersanyag ára szállt el világszerte: a volfrám, a kén és a hélium mind masszív drágulást produkált, néhol az olajhoz képest is nagyobb mértékben...

MA 08:15

Az Android Auto hibája eltünteti a térerőjelzőket – nyugi, van megoldás

Az utóbbi hetekben egyre több Android Auto-felhasználó vette észre, hogy eltűnt a térerőjelző a jármű műszerfaláról...

MA 08:08

Az Apple nagy dobása közeleg: érkezik az iPhone Fold?

Az Apple hamarosan nagyot léphet előre: a hajlítható iPhone teljesen új korszakot nyithat a mobilok világában...

MA 08:01

Az Artemis II zöld utat kapott: indulhat a Hold felé

A NASA történelmi jelentőségű küldetése, az Artemis II végre elindulhat: a 10 napos küldetés minden engedélyt megkapott egy átfogó repüléskészségi felülvizsgálat után, az időjárás-előrejelzés pedig biztató...

MA 07:57

Az amerikai nyugdíjvagyon is kriptóba áramolhat

💰 Az Egyesült Államok Munkaügyi Minisztériuma új szabályozást terjesztett elő, amely megnyithatja az utat a nyugdíj-megtakarítási programokban felhalmozott több ezermilliárd dollárnyi vagyon számára a kriptovaluták, a magántőke és az ingatlanbefektetések felé...

MA 07:50

Az új, 3000 milliárdos katonai GPS továbbra is működésképtelen

🚩 Tizenhat évnyi fejlesztés, 3000 milliárd forintnál is drágább projekt, és még mindig működésképtelen a hadsereg legújabb GPS-vezérlőrendszere...

MA 07:36

Az új ASR-modell kiváltja a méregdrága feliratozó API-kat

A cégek, amelyek hangvezérelt munkafolyamatokat akarnak létrehozni, eddig két rossz közül választhattak: vagy megbízható, de zárt és adatvédelmi szempontból kockázatos API-kat, vagy nyílt, de – a telepítés rugalmasságáért cserébe – pontatlanabb modelleket...

MA 07:29

A nők ismét átvették a vezetést az amerikai munkaerőpiacon

💪 Jellemző példa, hogy évtizedeken át makacs nemi szakadék uralta a foglalkoztatást, noha a nők már régóta többen szereznek diplomát, mint a férfiak...

MA 07:22

A sertések ihlette forradalmi terápia a szemrák ellen

A szem hátsó részén kialakuló ritka daganattípus kezelésére most egészen szokatlan megoldással álltak elő: sertés ondójából származó molekulák segítségével juthat el a kemoterápia a nehezen hozzáférhető területekre...

MA 07:15

A hackerek már lecsaptak az új Citrix-sebezhetőségre

A Citrix NetScaler ADC és NetScaler Gateway rendszerekben súlyos biztonsági rést fedeztek fel, amelyet a hackerek aktívan kihasználnak érzékeny adatok megszerzéséhez...

MA 07:09

Az MI-ügynökök már-már kártevőként működnek

Érdemes megvizsgálni, milyen veszélyeket hordoznak az MI-ügynökök, és miként kezelhetők biztonságosan egy olyan világban, ahol a vállalatok egyre bátrabban vetik be őket...

MA 07:01

Az újranyitás után is maradnak a kígyózó reptéri sorok

🛫 Életbe lépett az a döntés, amelynek nyomán a Közlekedésbiztonsági Hivatal dolgozói visszakapják fizetésüket, véget vetve ezzel a csaknem hathetes leállásnak...

MA 06:58

A legújabb Meta-botrány: szerzői diadal, a torrentezés árnyéka

Ebből következően érdemes megérteni, hogy a Meta egyre súlyosabb szerzői jogi perekbe keveredett azzal kapcsolatban, ahogyan a tartalmakat torrent­hálózatokon keresztül kezeli...

MA 06:50

Az SSD-óriás: 246 TB egyetlen DapuStor-meghajtóban

Első pillantásra úgy tűnt, hogy a tárhelybővítés alapjait írják újra, amikor a DapuStor kihozta legújabb, Roealsen6 R6060 nevű SSD-jét...

MA 06:43

A Google Drive új trükkjei megmenthetik fájljaidat zsarolóvírus-támadáskor

🔒 Érdemes megérteni, hogy napjainkban a felhőalapú tárolás sem jelent automatikus védelmet a zsarolóvírusok ellen, amelyek még mindig komoly veszélyt jelentenek...

MA 06:36

A régebbi Samsungok már tudják az Apple-féle fájlmegosztást – vagy mégsem?

A Samsung mostanság igencsak rákapcsolt: hamarosan már a régebbi Galaxy készülékeken is elérhető lesz az a menő fájlmegosztási funkció, ami eddig csak az új csúcsmodelleken futott...

MA 06:29

Az erőre kapó kínai ipar felforgatja a világpiacot

Márciusban a kínai gyártás teljesítménye egy éve a legnagyobb ütemben nőtt, miközben a gyárak az ünnepek után új lendületet vettek...

MA 06:22

Az olcsó PC-k éve jön, mégis zuhanhatnak az eladások Amerikában

📈 Az Egyesült Államok PC-piacát idén komoly visszaesés sújtja: a kiszállított mennyiség várhatóan 13 százalékkal csökken, a folytatódó memória- és adattárolóválság miatt...