2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

hétfő 21:56

A fáraók csillogó gyászruhája: a gyöngyhálók titkos története

💎 Ez a látványos, több mint 4500 éves, gyöngyhálóból készült óegyiptomi ruha igazi ritkaság, amely kifejezetten egy nő temetésére készült a piramisok korában...

hétfő 21:34

A zsarolóvírusok orosz királya lebukott: így csaptak le UNKN-re

🔒 A német hatóságok hivatalosan is leleplezték Daniil Makszimovics Scsukint, azt a 31 éves, krími születésű orosz hackert, aki évekig „UNKN” fedőnéven működtette a hírhedt GandCrab- és REvil-zsarolóvírus-bűnbandákat...

hétfő 21:02

A víz alatti élet titka: miért nem fulladunk meg?

Az emberiség elképesztően sokszínű környezethez alkalmazkodott az évezredek során. Bárhol nézünk szét a Földön, megtalálhatók olyan közösségek, amelyek a legextrémebb körülményeket is túlélhetővé tették – sőt, otthonukká formálták...

hétfő 20:57

Az olcsó tárhelynek befellegzett: hová mentse most az adatait?

📤 Ebből következően érdemes megérteni, hogy az adattárolás egyre nagyobb kihívást jelent: a videók felbontása és mérete folyamatosan nő, a projektekhez szükséges fájlok könnyen túllépik a több száz MB-ot, miközben a megbízható, nagy kapacitású és megfizethető fizikai tárolók lassan eltűnnek...

hétfő 20:46

A mesterséges intelligencia megelőzi a katasztrófákat: itt a NeuBird Falcon

🕵 Kezdetben a technológiai ipar egyik legfőbb jelszava az volt, hogy haladj gyorsan, és törj össze dolgokat...

hétfő 20:12

A T‑Mobile lekapcsolja a régi mobilokat – lejárt az idő

⏱ Alig pár napja, hogy a T-Mobile frissítette a hálózatát, és elbúcsúzott néhány régi biztonsági szabványtól, amelyeket a 2017 előtti, régi androidos vagy iPhone-ok használtak...

hétfő 20:02

A MacBook Neo tényleg megváltoztatja a hétköznapokat ennyiért?

💻 Az Apple jó ideje nem dobott piacra új MacBook modellt, így sokan kíváncsian várták a Neo érkezését...

hétfő 19:56

Az MI-háború küszöbén: Altman vészjelzése az emberiségnek

Tipikus eset, amikor a technológia fejlődése villámgyorsan átírja a játékszabályokat: az MI már nemcsak elméleti fenyegetés, hanem a mindennapi gazdaság húzómotorja...

hétfő 19:34

Az internet kora elszabadította a zaklatást: sosem látott esetszám

Az elmúlt tíz évben Angliában és Walesben mintegy ötvenszeresére emelkedett a rendőrség által nyilvántartott zaklatási ügyek száma, tavaly több mint 135 ezer bűncselekményt regisztráltak, szemben a tíz évvel korábbi majdnem 3 ezerrel...

hétfő 19:24

Az új diplomások kálváriája: miért sosem volt ilyen nehéz állást találni?

💼 Az egyetemi diplomát szerző fiatalok idén minden eddiginél szigorúbb munkaerőpiaccal szembesülnek...

hétfő 19:13

Az új Moto Watch: sportóra, vagy csak mutatós kiegészítő?

A Moto Watch első pillantásra komoly versenytársnak tűnik a fitneszórák piacán...

hétfő 19:02

A NEAR berobban, az Avalanche száguld – kriptóőrület hétvégén

Micsoda fordulat a hétvégén! A kriptopiacon mindenki a NEAR Protocolra kapta fel a fejét, mert 8,1%-ot hasított – komolyan, ez már nemcsak véletlenül elszabadult rakéta...

hétfő 18:56

Az Artemis II élőben kerüli meg a Holdat – ilyen még nem volt!

A NASA épp most ír történelmet az Artemis II küldetéssel. Reid Wiseman, Christina Koch, Victor Glover és Jeremy Hansen lesznek azok, akik minden eddigi űrhajósnál messzebb utaznak a Földtől, az Orion űrhajóval...

hétfő 18:45

A magányos bitcoin-bányász, aki egy csapásra meggazdagodott

🤑 Egy magányos bitcoin-bányász szenzációt keltett, amikor mindössze 230 terahash/s számítási kapacitással sikerült validálnia a 943 411-es blokkot...

hétfő 18:23

Az új Walmart 4K-s streaming stick: tényleg megéri?

📺 A Walmart legújabb, 4K-s streaming stickje már csendben megjelent néhány üzlet polcán, így a vásárlók már most is beszerezhetik az UHD-minőséget kínáló eszközt...

hétfő 16:45

A Samsung Ultra villámgyorsan tölt, de az akku csak közepes

⚡ A Samsung legújabb csúcsmobilja, a Galaxy S26 Ultra elsőként kapott 60 wattos vezetékes gyorstöltést, amivel végre felzárkózott a versenytársak szintjéhez...

hétfő 16:34

Az univerzum óriás fekete lyukai éheznek – miért?

🧰 Az elmúlt 10 milliárd évben a világegyetem legnagyobb fekete lyukai feltűnően lassabban növekedtek, mint korábban...

hétfő 16:24

A fényalapú chipek hozzák el az MI következő nagy ugrását?

Az ipart formáló, stratégiai jelentőségű innovációként tör előre a szilícium-fotonika: ez a technológia főként a fejlett MI-, kommunikációs és adatinfrastruktúra alapkövévé válik...

hétfő 16:01

A végső leszámolás az otthoni téves riasztásokkal

A legtöbb otthoni riasztórendszer használója találkozott már az éjszaka közepén megszólaló szirénával vagy ok nélkül működésbe lépő füstérzékelővel...

hétfő 15:56

A Bitcoin veszélyben – zár alá kerülnek Satoshi pénztárcái?

⚠ A világ legnagyobb Bitcoin-vagyona veszélybe került, mivel új kvantumszámítási technikák már 2029-re képesek lehetnek feltörni Satoshi Nakamoto pénztárcáit akár kilenc perc alatt is...

hétfő 15:46

Az MI felfalja a SaaS-t: Túl korán temetjük a szoftvereket?

Az idei év elején komoly hullámokat vetett a technológiai piac, amikor a fejlett MI-megoldások, mint az Anthropic Claude jogi feladatmodulja, egyetlen nap alatt 104 ezermilliárd forintnyi piaci értéket tüntettek el a tőzsdékről...

hétfő 15:34

Az iPhone mostantól rászól, ha koszos a kamerád – mert miért ne?

Gyerekek és mobilkamerák – ez aztán páros! Ha hagyod, hogy a kis kezek rátegyék a tappancsukat a mobilodra, tuti, hogy pár ujjlenyomat és egy adag titokzatos trutyi landol a képernyőn, sőt, a kamerán is...

hétfő 15:22

Az IMF riadót fúj: a tokenizáció megrengetheti a pénzpiacokat

⚠ A blokkláncon megjelenő valós eszközök tokenizációja forradalmasíthatja mind a kriptopiacokat, mind a hagyományos pénzügyi rendszert, de új kockázatokat is teremt, amelyekre a szabályozóknak egyelőre nincs válaszuk...

hétfő 15:14

A 8849 Tank X: a mobil, ami túléli a világvégét

🛡 A 8849 Tank X-szel első pillantásra kiderül: ez nem hétköznapi okostelefon...

hétfő 15:03

Az egyszeri génszerkesztés átírhatja a koleszterincsökkentés szabályait

Érdemes megvizsgálni, hogy egy kísérleti génszerkesztéses eljárás milyen áttörést hozhat a veszélyesen magas koleszterinszint kezelésében azok számára, akiknek a hagyományos gyógyszerek nem válnak be, vagy egyszerűen nem képesek hosszú távon következetesen szedni azokat...

hétfő 14:45

Az égbe törő mobiltornyok: közeleg a hálózati forradalom

A világ távközlési infrastruktúrája jelentős átalakulás előtt áll: a műholdas rendszerek mellett most a sztratoszférába emelt, irányítható léghajók is megjelentek az adatátvitel forradalmian új formájaként...

hétfő 14:24

Az új Google Fotók-trükk: villámgyors MI-szerkesztés a Pixel telefonokon

⚡ A Google ismét a Pixel-tulajdonosoknak kedvez egy izgalmas fejlesztéssel: a Google Photos MI-alapú fotójavító funkcióját most kettéosztja...

hétfő 14:04

Vége a játéknak: bezár a Robot Cache, oda a játékgyűjtemény

A 2018-ban indult Robot Cache digitális játékbolt gyors bukásának története a kriptoőrület egyik utórezgése...

hétfő 13:45

Az új memóriavédelem végre nyugalmat hozhat a Samsung-felhasználóknak

Ez a jelenség jól illusztrálja, hogy az okostelefonokon futó alkalmazások gyakran észrevétlenül is helytelenül kezelik a memóriát, ami adatvesztéshez, engedély nélküli hozzáféréshez vagy akár komolyabb biztonsági résekhez vezethet...