A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 18:34

Az MI nagy dobása: Disney-hősök kelnek életre Sora-videókban

📺 A Disney óriási, 370 milliárd forintos (1 milliárd dollár) befektetést jelentett be az OpenAI-ba, amellyel példátlan együttműködést indít el a generatív MI világában...

MA 18:17

A Windowsban végre vége a fehér villanásoknak

A Microsoft végre orvosolta azt a bosszantó hibát, amely miatt a Windows 11 Sötét módban futó Fájlkezelő használatakor hirtelen vakító fehér villanások jelentek meg...

MA 18:02

A tél kapuja: mit hoz a téli napforduló?

Decemberben a legrövidebbek a nappalok, de a tél kezdete nem is olyan egyértelmű, mint hinnéd...

MA 17:50

A fogyókúra új csodaszere: dán gyógyszergyár szorongatja a nagyokat

Ez a jelenség jól illusztrálható azzal, hogy a dán Zealand Pharma merész, 2030-ig tartó stratégiát hirdetett, amellyel új lendületet hozna a fogyást segítő gyógyszerek piacára...

MA 17:33

Az idei nyolcadik Chrome-botrány: újabb kritikus hibát foltozott a Google

⚠ A Google újabb, a gyakorlatban is kihasznált, úgynevezett nulladik napi sebezhetőséget javított a Chrome böngészőben – ez már a nyolcadik ilyen javítás 2025-ben...

MA 17:18

Az aranyos társasjáték, amely brutális agytornát kíván

Érdekes felvetés, hogy egy tündéri, állatkákkal illusztrált társasjáték valójában igazi, többrétegű stratégiai kihívást rejthet...

MA 17:02

Az új Pixel Camera-frissítés totális káoszt okoz?

📷 A Pixel telefonokat sokan főleg kiváló fotózási képességeik miatt választják, és a gyári Pixel Camera alkalmazás most a 10...

MA 16:50

A szmogtengerben fuldoklik Hanoi

Egy hete vastag, mérgező szmog borítja Hanoi utcáit, amely elhomályosítja a város látképét, és nehézlégzést okoz a kilencmilliós lakosság körében...

MA 16:33

A 4000 milliárdos gigadeal: az IBM viszi a Confluentet

💰 A technológiai világ ismét felforrósodott: az IBM bejelentette, hogy 11 milliárd dollárért (kb...

MA 16:17

A rák titkos trükkje, amitől mindig visszatér

A rák elleni gyógyszerekre kialakuló rezisztencia továbbra is az egyik legnagyobb kihívás az onkológiában...

MA 16:02

Az Eli Lilly csodaszere: olvadnak a kilók, múlik a térdfájás

Érdemes megvizsgálni, milyen áttörést hozott az Eli Lilly legújabb elhízás elleni gyógyszere, a retatrutide, amely a legfrissebb, késői fázisú vizsgálatok alapján minden eddiginél nagyobb testsúlycsökkenést eredményez...

MA 15:49

Az agy csapdája: így tartanak fogva a rossz szokások

🔒 Fontos kérdés, hogy miért válik oly gyorsan megszokássá egy ártatlan reggeli rutin, miközben máskor képtelenek vagyunk elhagyni káros beidegződéseinket...

MA 15:34

Az orosz tűzóriás visszavág: újjászületett a Bezimjanny

Oroszország távoli Kamcsatka-félszigetén található a Bezimjanny, amely 1956 márciusában hatalmas robbanással szétvetette önmagát, és szó szerint eltüntette eredeti csúcsát...

MA 15:02

Az új MI-kódoló háborút hirdet az óriásoknak

🚀 A francia Mistral AI vadonatúj MI-megoldással rukkolt elő: a Devstral 2 egy nyílt súlyú, 123 milliárd paraméteres kódolási modell, amelyet kifejezetten autonóm szoftvermérnöki eszköznek szán...

MA 14:50

Az online gyermekbántalmazás tombol – Van ebből kiút?

Érdekes felvetés, miszerint a digitális világ folyamatosan változik, miközben az online térben minden eddiginél nagyobb fenyegetést jelent a gyermekek szexuális kizsákmányolása és bántalmazása...

MA 14:33

Az Adobe MI-őrülete bejött: szárnyal a cég

Az Adobe 2025-ben újabb rekordévet zárt, 8 400 milliárd forintos bevételt ért el, ami 11 százalékos növekedést jelent az előző évhez képest...

MA 14:18

A rejtélyes Trója titkai: egy új mozaik mindent átír

🌍 Kivételesen jó állapotban fennmaradt római kori mozaikot tártak fel Nagy-Britanniában, amely a trójai háború ábrázolásával lepte meg a kutatókat...

MA 14:02

Az óceán mélye rejtélyesen tünteti el a szenet

🌊 Különösen említést érdemel, hogy a legújabb kutatások alapjaiban rengetik meg eddigi tudásunkat arról, miként raktározódik a szén az óceánok sötét mélységeiben...