
A világmodell gyökerei: egy elfeledett skót pszichológus nyomán
A fogalom gyökerei egészen 1943-ig nyúlnak vissza, amikor Kenneth Craik, egy skót pszichológus felvetette: ha egy szervezet fejében ott van egy kicsinyített modell a valóságról, akkor jobban, gyorsabban és biztonságosabban tud dönteni, gondolkodni, cselekedni. A számítástechnikai korszak hajnalán a Craik által megálmodott mentális modellek akkor váltak igazán fontossá, amikor a kognitív tudomány és az MI összekapcsolódott. A hetvenes évek MI-pionírjai például a blokkok világa (blocks world) egyszerűsített világmodelljével próbáltak absztrakt következtetésekhez és elemzési képességhez jutni.
Ezzel szemben a túl bonyolult, kézzel készített modellek gyorsan elavultak; Rodney Brooks MI-kutató például végül teljesen elvetette őket a ’80-as évek végére, mondván: a világ önmagának a legjobb modellje – a mesterséges absztrakciók csak gátolják a hatékonyságot.
A deep learning forradalma: szabályok helyett tapasztalati tudás
A fordulatot a gépi tanulás, főként a mesterséges neurális hálózatok hozták: ezek képesek voltak saját környezetükről belső közelítéseket kialakítani, kézzel írt szabályok nélkül. Így már lehetséges volt például egy virtuális versenyautó vezetése, vagy éppen chatbotok, mint a ChatGPT létrehozása, amelyek számtalan hétköznapi láncolatot „látnak előre”. Ahogy ezek a nyelvi modellek egyre váratlanabb, szakterületen kívüli feladatokat is meg tudtak oldani, sok kutató (például Geoffrey Hinton, Ilya Sutskever és Chris Olah) feltételezte, hogy ezekben az MI-kben valahol megbújnak a Craik nevéhez fűződő mini-világmodellek.
Káosz és szabályrendszerek: van-e tényleg belső világtérkép?
Ez alapján arra lehet következtetni, hogy ezek a nagy és bonyolult MI-k valójában nem átfogó világmodellekkel, hanem inkább elszigetelt, gyakran egymásnak ellentmondó heurisztikák gyűjteményével dolgoznak. Ez a vak emberek és az elefánt történetére emlékeztet: aki a farkát fogja, kötelet gondol, aki a lábát, facsonkra tippel. Amikor például egy nagy nyelvi modellből próbálnak konzisztensebb játékmodelleket előcsalni – mondjuk egy Othello-tábla egészének digitális ábrázolását – rendre csak részleteket találnak: egy kis kígyót, egy kis fát, egy kis kötelet, de az egész elefánt, azaz a teljes kép hiányzik.
Mindez azonban nem teszi értéktelenné ezeket a rendszereket. Képesek például szinte tökéletes navigációs útmutatást adni Manhattanben két pont között – anélkül, hogy valós, átfogó térképet alkotnának a városról. Amint azonban a kutatók véletlenszerűen elzártak 1%-nyi utcát Manhattanből, a MI teljesítménye összeomlott. Ha világmodell állt volna mögötte, nem okozott volna gondot az akadályok megkerülése.
A valódi világmodellek jelentősége és a jövő kihívásai
Ennek fényében nem csoda, hogy a legnagyobb MI-laborok világszerte saját világmodelleken dolgoznak, és a kutatók is egyre nagyobb lendülettel merülnek el a kérdésben. Egy igazán robusztus, ellenőrizhető világmodell nemcsak az AGI szent grálját jelentheti, hanem megbízhatóbb, átláthatóbb és értelmesebb döntéshozatalt, valamint a MI által generált „hallucinációk” csökkentését is ígéri.
Azt viszont továbbra sem tudja senki, hogyan lehet ezt a célt a leggyorsabban elérni. A Google DeepMind és az OpenAI a multimodális, azaz szövegen túl videókat, szimulációkat, 3D adatokat is használó tréningekben hisz; a Meta kutatója, Yann LeCun szerint viszont teljesen új, nem generatív MI-architektúra szükséges. A közös cél: a világ belső digitális hókristálygömbjének – egy modellezhető, átfogó valóságképnek – megtalálása. Hogy mindebből valaha sikerül-e használható MI-t alkotni? Egyelőre csak remélhetjük, hogy a valódi elefántot fejlesztjük, nem csak újabb köteleket, fákat és kígyókat.