
Generatív MI, mint robotagy
A robotika különösen nagy kihívás az MI számára, hiszen nemcsak egy programozott szoftverről van szó, hanem egy olyan gépről, amely folyamatosan alakítja a környezetét. Eddig a robotokat leginkább megerősítéses tanulással, lassan lehetett tanítani, és így minden lehetséges helyzetre külön kellett reagálást fejleszteni. Az új generatív MI azonban képes a világ multimodális értelmezésére, így akár teljesen új feladathoz is alkalmazkodhat – például ahogy a Gemini képes verset írni vagy képet generálni, ugyanígy képes robot-akciókat is létrehozni.
Robothadak a felhő nélkül
Az előző Gemini Robotics modell még hibrid rendszerként működött: a roboton egy kisebb MI futott, a bonyolultabb döntésekhez pedig felhőalapú feldolgozást használtak. A valós idejű robotika azonban a másodperc törtrésze alatt döntéseket követel, ezért a DeepMind most elérhetővé tette a kizárólag helyben futó VLA-t. Ez meglepően robusztusnak bizonyult: mindössze kicsivel marad el pontosságban a hibrid változathoz képest. Sőt, sok feladat már előzetes programozás nélkül is működik, és a fejlesztők csupán 50-100 példával új műveletekre taníthatják be a robotokat.
Tanítás néhány mozdulattal
A robotok betanítása főként úgynevezett demonstrációval történik: a kutató vezérli a robotot, hogy egy adott feladatot emberi irányítással hajtson végre, ezután a modell már önállóan is képes lesz hasonló műveleteket végrehajtani. Bár a szimulációk segítenek, a legösszetettebb, ügyességet igénylő feladatoknál továbbra is valódi, fizikai adat szükséges. Egyszerűbb dolgokat, például cipőfűzést vagy pólóhajtogatást azonban már a helyi VLA is hibátlanul elvégez, de egy bonyolultabb feladathoz, mint például egy szendvics elkészítése, feltehetően már fejlettebb MI szükséges.
Biztonság mindenekelőtt
A robotoknál kiemelten fontos a biztonság – elég csak elképzelni, mi történik, ha egy MI vezérelte gép hibázik. A Gemini Robotics ezért összetett, többrétegű védelmet alkalmaz: a felső szinten egy MI-modell ellenőrzi, mi számít biztonságos cselekedetnek, az akciós VLA alternatívákat ajánl fel, majd egy alacsonyabb szintű vezérlő kritikus biztonsági paraméterek (pl. mozgási erő, sebesség) mentén szabályozza a robot mozgását. A most kiadott helyi modell azonban önmagában csak egy VLA, így a fejlesztőknek maguknak kell beépíteniük ezeket a védelmi szinteket. A Google azt javasolja, hogy használjanak alapvető biztonsági API-t is, és mindenhol vezessenek be alacsony szintű kontrollt.
Robotok a mindennapokban
A Gemini Robotics On-Device modell elsősorban ott lehet életképes, ahol a felhőkapcsolat gyenge vagy egyáltalán nincs – például egészségügyi intézményekben, ahol az adatok helyben tartása különösen lényeges. Akik kipróbálnák az új robot-MI-t, jelentkezhetnek a Google bizalmas tesztelői programjába. Carolina Parada, a fejlesztés vezetője szerint az elmúlt három évben számos áttörés született, és még csak most járunk az út elején: a robotok jelenleg egy fejlesztéssel le vannak maradva a chatbot verziókhoz képest, de hamarosan őket is a legfejlettebb Gemini MI hajthatja majd.