A Sakana 7B-je vezényli a GPT-5-öt, Claude-ot és Geminit

A Sakana AI kutatói áttörő megközelítéssel új alapokra helyezték az MI-modellek együttműködését. Egy kis méretű, mindössze 7 milliárd paraméteres nyelvi modelljük, az RL Conductor, képes önállóan irányítani és összehangolni több, eltérő képességű, nagy teljesítményű MI-t, így együtt használja a GPT-5, a Claude Sonnet 4 és a Gemini 2.5 Pro modelljeit. Ez az automatikus koordinátor nemcsak hogy túlteljesíti az egyedi élvonalbeli modelleket a legnehezebb problémák megoldásában, de mindezt töredék költséggel és kevesebb API-hívással teszi.

Statikus rendszerek csapdájában

A jelenlegi MI-alapú ügynökhálózatok merev sémái valójában komoly akadályai a fejlődésnek. Bár a nagy nyelvi modellek óriási rejtett képességekkel rendelkeznek, ezek kiaknázása jelenleg kézműves módszerekre, manuálisan felépített munkafolyamatokra támaszkodik. Az ilyen rendszerek a valóságban gyorsan elvéreznek, amikor eltérő, sokféle igény lép fel – márpedig az üzleti életben ez a normális eset. Emiatt a változó felhasználói elvárások kezelése, valamint a különféle kompetenciájú modellek ésszerű összehangolása sokszor lehetetlen vállalkozás a statikus, keményen kódolt csővezetékek mellett.

A másik alapprobléma, hogy nincs olyan egyetlen modell, amely minden feladatra optimális lenne. Egyesek kiválóak tudományos gondolkodásban, mások a kódírás vagy éppen matematikai logika terén kiemelkedőek. Mivel ezek a készségek kiegészítik egymást, a megfelelő modellkombinációk előzetes, manuális meghatározása gyakorlatilag lehetetlen. Az ideális rendszer ezért képes lenne magától felismerni a problémát, majd dinamikusan kiosztani a részfeladatokat a legmegfelelőbb „szakértőnek” a modellcsoportból.

Hogyan karmesterkedik az RL Conductor?

Az RL Conductor szakít a korábbi, merev keretekkel. Nevéhez hűen igazi karmesterként irányítja az MI-ügynökök zenekarát: összetett problémákat darabol részfeladatokra, kialakítja az ügynökök közötti kommunikációs hálót, majd menedzseli az együttműködést. A folyamat során nem előre bekódolt sémákból dolgozik, hanem minden egyes feladathoz személyre szabott, természetes nyelvű munkautasításokat generál. Meghatározza, ki melyik részt csinálja, milyen előzményeket, válaszokat vehet figyelembe, így rugalmas, igényre szabott munkafolyamatokat teremt.

A modell nem emberi tervezéssel tanulja meg ezt, hanem megerősítéses tanulási (RL) módszerrel. Tanítás során konkrét problémát kap, egy végrehajtó modellekből álló csoportot, majd visszacsatolást arról, hogy a válasza mennyire helyes. Az öntanuló folyamat során véletlenszerű próbálkozásokkal fedezi fel, mely ügynökhálózatok, utasítások, részfolyamatok hozzák a legjobb eredményeket. Emiatt automatikusan alkalmazza az olyan bonyolult stratégiákat is, mint a célzott promptolás, az iteratív finomítás vagy akár a metaprompt-optimalizálás – és mindezt anélkül, hogy a fejlesztőknek kézzel kellene programozniuk a folyamatot.

Mi mindent tud már most?

A Conductor teszteléséhez a kutatók a Qwen2.5-7B modellt igazították saját keretrendszerükhöz. A tanuló „karmester”-modell egy legfeljebb öt lépésből álló ügynökfolyamatot tervezett hét különféle MI felhasználásával: három zárt rendszerű (Gemini 2.5 Pro, Claude Sonnet 4, GPT-5) és négy nyílt forráskódú modellel (például DeepSeek-R1-Distill-Qwen-32B, Gemma3-27B, Qwen3-32B).

A Conductor felülmúlta az összes önálló élvonalbeli modellt és a legfejlettebb, többügynökös, ember-tervezte megoldásokat is a legnehezebb logikai, matematikai és kódolási teszteken. Átlagosan 77,27%-os pontosságot ért el, 93,3%-ot az AIME25 matematikai teszten, 87,5%-ot a GPQA-Diamond teszten és 83,93%-ot a LiveCodeBench programozási benchmarkon.

Ami igazán lenyűgöző: miközben a hagyományos rendszerek (például a MoA) átlagosan több mint 11 000 tokent égetnek el kérdésenként, a Conductor mindössze 1820 tokent használt, és átlagosan három lépésből oldotta meg a feladatot. Könnyű kérdésekre gyorsan, akár egyetlen ügynökkel válaszolt, de bonyolultabb programozási problémákhoz teljesen önálló, többlépcsős, dedikált tervezés-végrehajtás-ellenőrzés folyamatokat épített.

Ráadásul felismerte, hogy az élvonalbeli modellek különbözőek: a Gemini 2.5 Pro-t és a Claude Sonnet 4-et gyakran nagyívű tervezőként, a GPT-5-öt sokszor optimalizáló végrehajtóként alkalmazta. Volt olyan eset is, amikor minden tervezést rábízott a Gemini 2.5 Pro-ra, és az határozta meg az ügynökök munkáját.

Már termékben bizonyít: Sakana Fugu

A kutatásban leírt prototípusból már kész üzleti termék született. Sakana Fugu néven két változatban – Mini a gyors reagálásra, Ultra a kiemelt teljesítményre – érhető el. Ezek OpenAI-kompatibilis API-n keresztül zökkenőmentesen illeszthetők bármilyen vállalati rendszerbe, nem kell külön bajlódni több szolgáltatóval vagy kézi routinggal.

A Fugu már most segíti a fejlesztést, a mély kutatást, a stratégiaalkotást, sőt vizuális feladatokat is, például prezentációk készítését. A rendszer megfelelő biztonsági korlátokkal működik, kockázatai pedig nem nagyobbak, mint bármely csúcskategóriás, zárt MI-szolgáltatásé.

Emiatt azoknak a csapatoknak a leghasznosabb, akik már érzik, hogy túl sok idő megy el arra, hogy manuálisan instruálják MI-ügynökeiket. Egyszerű, helyben futó feladatokra továbbra sem éri meg, de ahol sok a specializált modell és összetett elvárás, ott az ilyen dinamikus vezérlés egyértelműen előnyös.

Az MI-modellek választékának bővülésével a statikus, merev keretrendszerek ideje lejárt. A végkövetkeztetés mindenkit meglepett: a jövőben ezek az önszervező vezérlők nemcsak szöveg- és kódkörnyezetben, de akár fizikai robotikai rendszerekben is alapvető szerepet töltenek majd be.

2026, adminboss, venturebeat.com alapján