2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 07:10

A kutatók meglepő válasza: mit tesz a kávé a vérnyomással?

Külön említést érdemel, hogy a kávé több mint 600 éve az emberi kultúra része, és manapság is a világ egyik legnépszerűbb italának számít...

MA 06:54

A kvantumos kísértetkép-alkotás csak napfénnyel – lenyűgöző áttörés

Egy lényeges szempont, hogy az optikában a kvantumos korrelációkat kihasználó kísérletek tipikusan rendkívül stabil és pontos lézerfényre épülnek, amelyet egy speciális, nemlineáris kristályba vezetnek, hogy összefonódott fotonpárokat hozzanak létre...

MA 06:46

Az árrobbanás elszabadult: benzintől a paradicsomig minden rekordot dönt

Tavasszal az amerikai lakosság szinte minden fontosabb háztartási kiadása jelentősen nőtt, az áram árától a húsoktól a zöldségekig...

MA 06:19

A Quordle-rajongók reggele: itt a mai tippek és megoldások

Miután reggel felébredtél, egyből nekiestél a Quordle mai feladványának? Ha még nem sikerült rájönni a mai szavakra, most minden segítséget megkapsz!..

MA 06:05

Történelmi események a mai napon (Május 18.)

Ma több korszakhatárt jelentő esemény is történt: a keresztes hadjáratok végét jelző Acre eleste, a Hét éves háború kirobbanása és a Napóleoni háborúk újraindulása, valamint a Mount St...

vasárnap 21:56

Mikor jön A testamentumok 9. része a Hulura és a Disney+-ra?

📚 A csendes vihar előtti pillanatok uralják A testamentumok (The Testaments) legújabb epizódjait, miközben a szereplők egyre nehezebb döntések előtt állnak...

vasárnap 21:45

A New York Magazine szerzőjét egy héten belül másodszor vádolják plágiummal

Ross Barkan, a New York Magazine szerzője másodszor is komoly plágiumvádakba keveredett egyetlen hét alatt...

vasárnap 21:34

Az utolsó titán: felfedezték Thaiföld leghosszabb nyakú dinoszauruszát

Új, eddig ismeretlen dinoszauruszfajt fedeztek fel Thaiföldön, amely mintegy 120 millió évvel ezelőtt élhetett...

vasárnap 21:23

Az örök vita: melyik karaktert a legkönnyebb cosplayelni?

Néha a legapróbb ötletek tartogatják a legtöbb örömöt, még akkor is, ha egyáltalán nem idő- vagy pénzigényesek...

vasárnap 21:12

A tudósok szerint az egyhetes böjt átformálja a testedet

Tipikus eset, amikor az emberi szervezet különleges képességeit csak extrém körülmények között ismerjük meg igazán...

vasárnap 21:01

Az Anker power bank 20 dollárért verhetetlen: kicsi és erős

🔋 Az Anker egy 10 000 mAh kapacitású power bankot kínál, amely egyszerre kompakt és megbízható, ráadásul kevesebb mint 7 200 forintért (20 USD)...

vasárnap 20:46

A Turtle Beach Stealth Pro 2 szinte tökélyre csiszolja az elődjét

Felmerül a kérdés, hogy merre tovább egy olyan termék után, ami szinte mindenben felülmúlta a várakozásokat...

vasárnap 20:34

Az új Star Citizen alfa teljes reset: jön a szigor a duplázókra

A Star Citizen univerzuma most teljesen újraindul: a legújabb Alpha 4...

vasárnap 20:23

A TSA elmagyarázza, miért vihetsz grillcsirkét a fedélzetre

🐔 Érdekes felvetés, hogy míg a repülőtéri ellenőrök szinte mindent elkoboznak, amit folyékonynak vagy gyanús tárgynak gondolnak, addig egész grillcsirkéket akár korlátlan mennyiségben vihetsz a kézipoggyászban a fedélzetre...

vasárnap 20:01

A fiatalok miatt valós idejű harcra vált a Final Fantasy?

🎯 A játékiparban egyre élesebb vitát vált ki, hogy a valós idejű vagy a körökre osztott harcrendszer a vonzóbb a játékosok számára...

vasárnap 19:56

Az alulértékelt szupergyümölcs: a görögdinnye meglepően jót tesz a szívnek

🍉 Felmerül a kérdés, hogy mennyit tudunk valójában a görögdinnye egészségügyi hatásairól...

vasárnap 19:45

A Minisforum mindent a NAS-ra tesz – két SSD-s újdonság, borsos áron

Megemlíthető továbbá, hogy a Minisforum jelentősen bővíti a hálózati adattárolók sorát: az új All-Flash S5 és All-Flash S7 modellek kizárólag SSD-meghajtókat támogatnak, így hangos merevlemezek helyett villámgyors és néma adattárolást kínálnak...

vasárnap 19:35

A Corsair Vanguard Air 99 mennyei, de megéri a felárat?

A Corsair Vanguard Air 99 Wireless teljes méretű gamer billentyűzet meglepően könnyű és kompakt, úgy, hogy a teljes kiosztást megtartja...

vasárnap 19:24

A félistenek háborúja: Demigod, a káosz remeke

A Demigod egy elképesztően látványos és fantáziadús stratégiai játék, ahol dinoszauruszok, óriások és félistenek küzdenek egymással egy grandiózus, de kissé zavaros világban...

vasárnap 18:56

Az áttörő nanotechnológia visszafordította az Alzheimer-kórt egerekben

🔬 A tudósoknak sikerült forradalmi nanotechnológiát alkalmazniuk, amely visszafordította az Alzheimer-kórhoz hasonló tüneteket egerekben...

vasárnap 18:23

Az SBI és a Rakuten kriptoalapokat indítanak: fordul a piac?

💸 Két vezető japán brókercég, az SBI Securities és a Rakuten Securities arra készül, hogy hamarosan kriptovaluta-befektetési alapokat kínáljon ügyfeleinek...

vasárnap 15:23

Az indie akció-RPG, ahol letaszítod és szöges falba vágod őket

Felmerül a kérdés, hogy mivel lehet kitűnni a Minecrafthoz hasonló, tömbös látványvilágú játékok világából, ha mindenki szinte ugyanazzal próbálkozik...

vasárnap 15:12

A római könyvtár mélyéről került elő az angol költészet elveszett kincse

Egy ír egyetemen dolgozó kutatócsoport véletlenül bukkant rá a legrégebbi fennmaradt angol versre, miközben egy középkori könyvet lapozgatott egy római könyvtár digitalizált gyűjteményében...

vasárnap 15:01

A DeFi új frontja: VerifiedX szerint jön a programozható, privát Bitcoin-korszak

💰 Ilyen eset például, amikor a Bitcoin körül egyre többen keresik, hogyan lehetne a világ legrégebbi blokkláncát végre nemcsak értéktárolásra használni, hanem valódi DeFi (decentralizált pénzügyi) alkalmazásokat futtatni rajta...

vasárnap 14:56

A Civilization 7-be ingyen érkezik a történelem leghíresebb hódítója

A Civilizáció 7 (Civilization 7) legújabb frissítése hétfőn fut be, és meglepetésként minden játékos számára elérhetővé teszi a történelem egyik leghíresebb hadvezérét, Nagy Sándort...

vasárnap 14:34

A Szaharában egyiptomiaknál régebbi, óriási kör alakú tömegsírokra bukkantak

A Kelet-Szudánban, a hatalmas Atbai-sivatagban többéves kutatómunka alatt 260 hatalmas, kör alakú temetőt sikerült azonosítani, amelyek jóval az ókori Egyiptom létrejötte előtt épültek...

vasárnap 13:45

A Firedancer lassan, de biztosan építi a Solana új infrastruktúráját

🔥 A Jump Crypto új validátor kliense, a Firedancer, már csendben működik a Solana főhálózatán...

vasárnap 13:34

A ChatGPT már a bankszámládra pályázik – mi baj lehet?

Az OpenAI legfrissebb újítása egy személyes pénzügyi szolgáltatás, amelyet jelenleg az USA-ban tesztelnek Pro-előfizetőkkel...

vasárnap 13:23

A Webb és a Hubble az Örvény-galaxis vakító mélyére merülnek

Erre jellemző példa, hogy a csillagászok egy lenyűgöző, új felvételt készítettek az Örvény-galaxisról (Whirlpool Galaxy, Messier 51), amely közelebb visz bennünket a csillagok születésének rejtélyeinek megértéséhez...