Saját MI-utódunkat tanítjuk be minden egyes billentyűleütéssel?

Hősünk 2025 februárjában elgondolkodott azon, hogy mennyi idő múlva fogják a munkáltatók mesterséges intelligenciával helyettesíteni alkalmazottaikat, hiszen minden szükséges adattal rendelkeznek ehhez.

Egy év távmunka a Google-nél

2020 és 2021 között hősünk teljes munkaidőben dolgozott a Google-nél, teljesen távmunkában. Soha nem járt a Google székhelyén, minden hozzájárulása digitális volt: billentyűleütések, érintőpad-mozgások és egérkattintások sorozata a hivatalos Google laptopjáról. Videótalálkozókon keresztül adott hang- és videóbemeneteket, de soha senki nem látta személyesen.

Csak nemrég merült fel a gondolat, hogy ezeket a cselekedeteket valószínűleg rögzítették. Természetesen bizonyos dolgokról már ismert volt, hogy rögzítve vannak: például a Google monorepo-ba beküldött kódsorok feltehetően még mindig ott vannak. A levelek is tárolva vannak valahol, ahogy a Google Docs-on keresztül írt jegyzetek is. De mi a helyzet a vállalati számítógépen végzett többi tevékenységgel?

Nagyonis lehetséges, hogy az egész napi munkafolyamatot dokumentálták. Elméletileg a munkáltatónak joga volt minden olyan bemenetet gyűjteni, amit a vállalati számítógépen adtak meg: minden egérkattintást, minden billentyűleütést. És ezeket mind visszaküldhették volna valamilyen adattárházba. Ez sokkal gazdagabb adattípus, mint egyszerűen a kimeneti kódsorok: ezek olyan *viselkedési nyomok*, amelyek meghatározzák, hogyan oldódnak meg problémák az elejétől a végéig.

Távmunka automatizálása felügyelt tanulással

A viselkedési nyomok a munkakimenet automatizálásának fogalmát a mesterséges intelligencia jól definiált tanulási problémájává egyszerűsítik. A modell bemenetei lennének mindazok a bemenetek, amelyeket a számítógép szolgáltat: képernyőn megjelenő pixelek, esetleg hang. A kimenetek pedig azok a “műveletek”, amelyeket a számítógépen végeztek: billentyűleütések, egérmozgások, kattintások.

Nagy léptékben teljesen megvalósíthatónak tűnik olyan nagy modell betanítása, amely képes megjósolni a műveleteket a számítógépes bemenetekből. Ez a jelenlegi technológiával is megoldható: felügyelt tanulással, amely lehetővé teszi a műveletek előrejelzését számítógépes bemenetekből, és transzformerek segítségével, amely neuronhálózat-típus kiválóan alkalmas nagy mennyiségű adatból való tanulásra.

A vállalat szempontjából a folyamat egyszerű lenne. A munkáltató rögzíti a munkavállaló tevékenységét bizonyos ideig; betanít egy modellt, hogy reprodukálja a kimenetét a legmonotonabb és legunalmasabb feladatokhoz. Vagy talán a vállalat az összes rendelkezésre álló adatot felhasználja, és egy modellt tanít be az összes alkalmazott kimenetének összességére. Ez közelebb állna ahhoz, amit más területeken, például a képfelismerésben és a nyelvfeldolgozásban láttunk sikeresen működni, ahol a több adaton való tanítás általában a helyes válasz.

Tökéletlen modelljeink képesek-e javítani termelékenységünket?

A cégek tehát betaníthatnak egy modellt az alkalmazottak cselekedeteinek utánzására. De hogyan használhatók ezek a modellek? Ha a létrejött mesterséges intelligenciára gondolunk, az nem lenne az alkalmazott közvetlen helyettesítője, hanem egy valószínűségi modell, amely megmondja egy adott művelet valószínűségét egy adott bemenet alapján.

A neurális hálózatokat könnyen megtéveszthetik a megtévesztő bemenetek, és általában nem teljesítenek jól, ha a bemenetek túlságosan eltérnek a megszokottól. Ezek az emberekkel ellentétben problémát jelentenek.

Magasabb bizonytalanságú helyzetekben a modell kevésbé hasznos eloszlást adna a potenciális műveletekről. Ilyenkor a mohó művelet-mintavételezés “kitettségi torzításhoz” vezethet, ahol a modell valami furcsát csinál, olyan helyzetbe kerül, amelyet még soha nem látott, és elkerülhetetlenül kisiklik.

A legvalószínűbb megoldás hasonló lesz ahhoz, ami az önvezető autók esetében bevált: a számítógép magától “vezethet”, amíg nem találkozik valami teljesen váratlannal, amikor egy ember beavatkozik. Miután az újszerű forgatókönyv megoldódott, és a feladat ismét hasonlít valamire, amit a számítógép már tud kezelni, a modell folytathatja a működést.

Kétféle alapvető felhasználói felület képzelhető el: “gyorsítás” stílus és “művezető” stílus.

A gyorsítási beállításban az asszisztens nagyon gyorsan elvégezne bizonyos feladatokat, míg a felhasználó várakozik. Ha a bemeneti késleltetés nem korlátozó tényező, a számítógép egy szempillantás alatt elvégezhetné a feladatokat.

A művezető módban egy ember felügyelne *sok* párhuzamosan dolgozó MI-t. Ez csak akkor lehetséges, ha a modellek beavatkozás nélkül tudják végezni munkájuk nagy részét. Ebben a beállításban egy személy lenne felelős több MI asszisztens sikeréért, és akkor segítene nekik, amikor a feladat elér egy bizonyos bizonytalansági szintet.

Mit jelent ez a mi számunkra?

A fejlődés növeli a digitális munka átlagos entrópiáját. Ennek az elvnek semmi köze a neurális hálózatokhoz. Ahogy jobb eszközöket fejlesztünk ki, gyorsabban tudjuk elvégezni az ismétlődő feladatokat. A jobb absztrakciók csökkentik a bemenet mennyiségét, amellyel ugyanannyi kimenetet tudunk generálni.

Minden távmunkás munkája időnként ismétlődő jellegű. Az érték abból származik, ahogyan a legkevésbé ismétlődő dolgokat kezelik: reagálnak az új helyzetekre, alkalmazkodnak a változásokhoz. Az új eszközök csökkenteni fogják a munkában lévő ismétlődések mennyiségét. A mindennapi munka kevésbé lesz kiszámítható, mivel a legvilágosabb és legmonotonabb feladatokat modellezik.

Mindezek alapján hogyan teheti magát nélkülözhetetlenné az ember? A válasz az entrópia elleni harccal. Ha a leghatékonyabb vállalat az, ahol az alkalmazottak mindig a legkevésbé ismétlődő dolgot csinálják, akkor a legproduktívabb alkalmazott az, aki a legkevésbé modellezhető. A hangsúly azokon a dolgokon van, amelyekhez nehéz tréningadatokat gyűjteni.

A “legbiztosságosabb” vagy legnehezebben MI-esíthető munkák azok, amelyek sok váratlan helyzetet tartalmaznak, kreativitáson vagy más emberi sajátosságon alapulnak.