
Az önfejlődő MI-ügynökök kihívásai
A jelenleg használt nyelvi modellekkel az a legfőbb gond, hogy miután bevezetik őket, paramétereik rögzülnek—tehát csak a betanítás során megtanult tudást, illetve az aktuális kontextusablakban elférő információkat tudják használni. Emiatt – ha egy új, ismeretlen feladattal találkoznak – nem tudnak hatékonyan fejlődni, kivéve, ha a háttérmodellt teljes körűen újra kell tanítani, ami hatalmas idő- és költségigénnyel jár. Léteznek módok bizonyos képességek külön dokumentumokba vagy „skill”-fájlokba mentésére, de ezek eddig többnyire csak szöveges dokumentációként szolgáltak, nem igazi végrehajtható tudásként.
A szokásos keresőmotorokon és szöveghasonlóságon alapuló rendszerek gyakran félrevezetnek, mert egy „jelszó-visszaállítás” feladathoz például könnyen előhozhatnak egy „visszatérítési igénylés” munkafolyamatot, mivel közös kulcsszavakat tartalmaznak – viszont a megoldásuk teljesen eltér.
Memento-Skills: memória, ami tanul és változik
A Memento-Skills érdemi újítása, hogy a szükséges készségeket jól strukturált markdown-fájlokban tárolja, melyek az MI-ügynök „külső memóriáját” alkotják, és lépésről lépésre bővíthetők, módosíthatók. Egy ilyen skill három komponensből áll: egy deklaratív specifikációból (mi a skill és mire használható), célzott utasításokból, valamint valós, végrehajtható kódból, segédszkriptekkel.
A tanulási folyamat aktív—nemcsak naplózza, mi történt, hanem ha egy feladat sikertelen, az orkesztrátor elemzi a hibanyomvonalat, és szükség esetén kijavítja vagy teljesen újraírja a skilleket. Ha kell, teljesen új skill születik. Minden változtatás előtt automatikus egységteszt fut le, hogy ne fordulhasson elő visszalépés vagy működési zavar. A skillkiválasztó útválasztó is fejlődik: a rendszer nem csupán szövegazonosság alapján választ, hanem végrehajtási visszacsatolás, azaz megerősítéses tanulás (reinforcement learning) segítségével állapítja meg, melyik skillt érdemes használni.
Valódi tesztek a gyakorlatban
A keretrendszert két szigorú mércén is tesztelték: az egyik a GAIA benchmark, amely összetett, több lépéses feladatmegoldást, multimodális adatkezelést, webböngészést és eszközhasználatot is igényel. A másik a Human-Level Exams (HLE), különböző egyetemi szintű tantárgyakban: matematikában, biológiában és így tovább. Mindkét teszthez a GPT-4o volt az alapmodell, amelyet a Memento-Skills egyáltalán nem módosított.
Az eredmények lenyűgözők: a GAIA teszten a rendszer 52,3%-ról 66%-ra növelte a pontosságot—a különbség 13,7 százalékpont. Az expert szintű HLE teszten még szembetűnőbb a fejlődés: 17,9%-ról 38,7%-ra ugrott a teljesítmény. Eközben a klasszikus keresési módszerek csupán 50%-os sikeraránnyal működtek, míg a Memento-Skills 80%-ot ért el.
A rendszer teljesen organikusan fejlődik: mindkét benchmark kezdetben csak 5 alapskillel indult (pl. alap webböngészés, terminálkezelés), de a GAIA-ban 41, az expert HLE-ben pedig már 235 különböző skillt hozott létre önállóan, az adott feladatstruktúrákhoz igazodva.
Vállalati alkalmazás és korlátok
Nem zárható ki annak a lehetősége, hogy a Memento-Skills minden üzleti területen hasznosítható, de legideálisabb ott, ahol a feladatok szorosan egymásra épülő munkafolyamatokban jelentkeznek. Ilyen környezetben a tanult skillek közvetlenül vagy kis módosítással újrahasználhatók, ezáltal jelentősen gyorsítják a tanulást és a problémamegoldást.
Ezzel szemben ha a feladatok teljesen elszigeteltek, a rendszer kevésbé tud a korábbi tapasztalatokra építeni. Mindezt figyelembe véve a döntéshozóknak érdemes mérlegelni, hol vezetik be az ilyen fejlett MI-t; inkább ismétlődő, strukturált munkafolyamatokban, nem pedig ritka vagy egyedi problémáknál.
Megfontolandó, hogy fizikai robotok vagy hosszabb döntési láncokat igénylő MI-rendszerek esetén a Memento-Skills még nem elég kiforrott – ilyen komplex, több ügynököt igénylő alkalmazásokhoz további kutatás szükséges.
Biztonságos önfejlesztés: a jövő MI-ügynökei
A kód automatikus átírása komoly biztonsági és irányítási kérdéseket vet fel, főképp nagyvállalati környezetben. Bár a Memento-Skills automatikus egységtesztekkel és alapvető védelmi mechanizmusokkal működik, átfogóbb szabályozásra lesz szükség a jövőben, hogy a rendszerek valóban megbízhatóan és biztonságosan fejleszthessék magukat.
Mindezt figyelembe véve hamarosan egyre több olyan MI-ügynökkel találkozhatunk, amelyek maguk írják és frissítik saját tudásbázisukat, kódjukat—de hogy mindez mennyire válik mindennapossá, végső soron a gyakorlati bevezetési környezetek és a megfelelő irányítás szabják meg.
