
Önjavító MI-ügynök: hogyan működik?
A Memento-Skills lényegében folyamatosan fejlődő külső memóriaként szolgál az MI-ügynök számára. Minden képesség egy strukturált markdown-fájl, amely deklaratív leírást (mit és hogyan tud a készség), speciális promptokat és végrehajtható kódot is tartalmaz. Az ügynök – amikor új feladatot kap – nem a korábbi szövegalapú keresésekből dolgozik, hanem egy speciális készségirányító segítségével kiválasztja az adott szituációhoz legrelevánsabb képességet, végrehajtja azt, majd azonnal értékeli az eredményt és visszacsatol.
Jelentős, hogy a hagyományos ügynökrendszerekhez képest a Memento-Skills nem csupán „visszakeres” egy régi útmutatót vagy szkriptet: ha a megoldás nem működik, az orchestrátor – vagyis az irányító alrendszer – módosítja az adott készséget, vagy akár teljesen újat hoz létre. A rendszer minden módosítást automatikus egységteszttel ellenőriz, így elkerülhető a hibás vagy veszélyes kódok bevezetése. A folyamatos tanulás a Read-Write Reflective Learning (Olvasás–Írás alapú reflektív tanulás) mechanizmuson keresztül történik, amely a memória frissítését aktív policy-iterációként értelmezi, nem puszta naplózási folyamatként.
Miért fontos az önfejlesztő MI?
A mai nagy nyelvi modellek (például a GPT-4o) telepítés után „lefagynak”: minden bennük rejlő tudás csak a tanítási időszakból származik, és amit éppen most látnak, azt csak átmenetileg képesek kezelni. Ráadásul ha új készséget szeretnénk beépíteni, eddig vagy fáradságos finomhangolásra, vagy külön prompt-alkotásra volt szükség.
A Memento-Skills ezeket a hiányosságokat hidalja át azzal, hogy a készségkönyvtár saját magát bővíti, amikor az ügynök visszajelzéseket kap a végrehajtott feladatokról. Ez nemcsak jelentős működési költségeket takarít meg a vállalatoknak, de az adaptív tanulást is felgyorsítja.
Milyen feladatokban bizonyított?
A rendszer két szigorú teszten mutatta meg erejét. Az első, a GAIA-teszt, összetett, többlépcsős problémamegoldást, webes böngészést és többféle eszközhasználatot igényelt. A második, a Human-Level Exams (HLE), nyolc különböző egyetemi tantárgy szakértői szintű kihívásait állította az MI elé. Minden esetben egy „lefagyasztott” GPT-4o modell alkotta az alapot.
A Memento-Skills öntanuló mechanizmusa mindkét tesztben messze túlszárnyalta a csak statikus készségtárra támaszkodó, egyszerű Read-Write megoldást. A GAIA-teszten 13,7 százalékponttal nagyobb pontosságot ért el (66% a 52,3%-kal szemben), míg a HLE-ben — ahol a készségek átvihetők voltak különböző tárgyak között — több mint duplázta az eredményt (38,7% a korábbi 17,9%-hoz képest). A speciális készségkiválasztó eljárásnak köszönhetően a hibás találatok aránya is jelentősen csökkent: az end-to-end feladatelvégzési sikerességi ráta 80%-ra emelkedett, szemben a korábban tipikus 50%-kal.
Látható volt, hogy a rendszer az első öt magkészségből – például webes keresés, terminálműveletek – a GAIA feladatsoron 41, míg a HLE-teszten dinamikusan 235 különálló, új készséget generált és integrált.
Meddig érdemes alkalmazni a rendszert üzleti környezetben?
Jelentős, hogy a Memento-Skills kódja már nyilvánosan elérhető, viszont a gyakorlati értéke attól függ, mennyire hasonló, egymásra épülő feladatokról van szó. Amennyiben az ügynökök elszigetelt, egymástól független problémákat oldanak meg, a tapasztalatok átvitele korlátozott. Ha viszont a feladatok szerkezetileg rokonok, vagyis munkafolyamat-szerűen kapcsolódnak, akkor a tanulás sebessége és hatékonysága is megsokszorozódik.
Ebből kifolyólag a legkézenfekvőbb felhasználás a strukturált munkafolyamatok területe: itt a készségek komponálhatók, kiértékelhetők, és folyamatosan tökéletesíthetők. Fizikai robotok vagy hosszú, előre tervezett feladatsorok esetén ugyanakkor szükség lehet még továbbfejlesztett, akár több ügynököt koordináló MI-megoldásokra is.
Amint az MI-ügynökök maguk írják át produkciós kódjukat, a biztonság és a kontroll minden eddiginél fontosabbá válik. A Memento-Skills már alkalmaz automata teszteket, de az ipari bevezetéshez elengedhetetlen lesz egy átfogóbb, „ítész” rendszer, amely képes a teljesítmény reális értékelésére és az irányított, biztonságos önfejlesztés kereteinek szabályozására.
