2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 12:02

A D-Link G572: 5G-router, ha gyenge otthon a net

Az internetkapcsolat akadozása rendkívül bosszantó lehet – főleg, ha az otthoni vagy irodai munkád függ tőle...

MA 11:31

A Hubble vörös csillagbölcsőt örökített meg, sziporkázó kék és fehér csillagokkal

💫 A NASA Hubble-űrteleszkópja egyedülálló részletességgel mutatja be az univerzum egyik legaktívabb csillagbölcsőjét...

MA 11:01

Az univerzum a vásznon: elrajtol a tízéves kozmikus felmérés

🚀 Az év egyik legizgalmasabb tudományos fejleménye, hogy megkezdődött a Vera C...

MA 10:49

A CAPTCHA-knak befellegzett az MI korszakában?

🚧 Egy lényeges szempont, hogy amikor belépsz egy weboldalra, gyakran találkozol olyan feladatokkal, mint eltorzított szavak megfejtése, homályos képeken motorkerékpárok kiválasztása vagy annak igazolása, hogy nem vagy robot...

MA 10:38

Az EZVIZ EP4 a bérlők kedvence, de arcfelismerése hazatéréskor eláraszt riasztásokkal

👀 Bérlakásokban vagy társasházakban élők számára valódi kihívás lehet biztonsági kamerát vagy videós kapucsengőt felszerelni, hiszen nem fúrhatnak falat és nem okozhatnak semmilyen maradandó károsodást...

MA 10:25

A hét tudománya: James Webb új anyagot talál, Kína felzöldül, megoldott Medici-gyilkosság

Külön említést érdemel, hogy a James Webb-űrteleszkóp most először bukkant rá egy eddig nem észlelt anyagra a Plútó és a Titán légkörében...

MA 09:25

Az Egyesült Államok a szabályozatlan peptidek rabja: hatásosak egyáltalán, és biztonságosak?

💉 Felmerül a kérdés, hogy mennyire valóban hatékonyak, vagy akár biztonságosak azok a peptidkészítmények, amelyek jelenleg az egészségmegőrzés és a hosszú élet reményében terjednek az Egyesült Államokban...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 7/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy izgalmas túlélőjáték, amely George Orwell 1984 című klasszikusának világát idézi...

MA 09:01

Az okosóra és az MI korán kiszúrhatja a bajt

Lassan minden csuklón ott virít egy okosóra vagy okoskarkötő. Ezek már régóta nem csak a lépésszámot vagy a pulzust figyelik: a korszerű modellek alvást, bőrhőmérsékletet, légzésszámot, véroxigént, szívritmus-változékonyságot is képesek mérni, sőt, akár arra is riasztanak, ha valami baljós jelet érzékelnek...

MA 08:49

A NASA mentőakciója elindult a zuhanó Swiftért

🚀 Érdemes megérteni, hogy a NASA új, különleges mentőakcióba kezdett: egy robotűrszondával igyekszik megmenteni az évtizedek óta szolgáló, és most veszélyesen zuhanó Neil Gehrels Swift Obszervatóriumot (Neil Gehrels Swift Observatory)...

MA 08:13

Az ősi marsi kőzet szénben dúskál – hogy miért, rejtély

🪐 Amikor először egy marsi kőzet felszínén összetett szerves szén jelenlétét észlelték, a tudósok hirtelen egy régóta húzódó kérdés kapujában találták magukat: vajon élet nyomait találtuk meg, vagy valami egészen más magyarázat rejtőzik a színfalak mögött?..

MA 08:01

A hőhullám közepén 842 ezer amerikai háztartás maradt áram nélkül

Fontos kérdés, mennyire bírja az Egyesült Államok infrastruktúrája a tomboló hőhullámot...

MA 07:49

A Google AI-tanulókísérlete olyan, mint egy karcsúsított NotebookLM

A Google eddig is számtalan MI-eszközt kínált a tanulni vágyóknak. A NotebookLM például képes feldolgozni és kreatívan átalakítani az általad feltöltött forrásokat – gondolj csak podcastokra vagy gondolattérképekre...

MA 07:37

Az USA 250. születésnapja próbára teszi az MI-vezérelt kollektív intelligenciát

Érdekes felvetés, hogy mi történne, ha 250 véletlenszerűen kiválasztott embert összehívnánk, hogy megvitassanak egy fontos kérdést: vajon milyen eredményt adna, ha egy közös kihívást kellene megoldaniuk?..

MA 07:25

A JadePuffer MI-ügynöke teljesen automatizált egy zsarolóvírus-támadást

Fontos kérdés, mire képesek a legújabb technológiák, ha rossz kezekbe kerülnek: a kutatók most először bukkantak olyan zsarolóvírusra, amelyben minden lépést egy önálló, nagyméretű nyelvi modell vezérelt...

MA 07:01

A világbajnokság helyszínein több mint 600 drónt foglalt le az FBI

🛡 Az FBI június 11-e óta folyamatosan figyeli a FIFA-világbajnokság helyszíneit és környékét, mióta rengeteg drónt kaptak el olyan légterekben, ahol repülni szigorúan tilos...

MA 06:49

Amikor cserbenhagy a szaglás: az illatok nélküli mindennapok

😫 Negyvenévesen Chrissi Kelly egyszer csak elvesztette a szaglását, miután egy vírusos betegség ledöntötte a lábáról Csehországban tett családi látogatása után...

MA 06:24

A NASA egy évre teljesen elzárja az önkénteseket a külvilágtól

Aki már kezd belefáradni a földi forgatagba, annak új lehetőség nyílik: a NASA önkénteseket keres, hogy egy teljes évet töltsenek elszigetelve, mintha egy másik égitestre készülnének...

MA 06:05

Történelmi események a mai napon (Július 5.)

Ma olyan nap, amikor hidak nyílnak, birodalmak csapnak össze, országok születnek, és a popkultúra is történelmet ír...

szombat 18:32

A másolás–beillesztéses átverés, ami átveheti az irányítást a Mac-ed felett

🔑 Első pillantásra úgy tűnt, hogy egy egyszerű műveletet kérnek: másold be ezt a parancsot a Mac-ed parancssorába, aztán megoldódik a problémád...

szombat 18:02

Az öt Android-mobil, amit a Moto G Power helyett vegyél

📱 Külön említést érdemel, hogy a középkategóriás okostelefonok kínálata soha nem volt ennyire izgalmas...

szombat 17:31

A Midjourney visszavág: a bíróságon valljanak MI-használatukról a stúdiók

🛠 A Midjourney szembeszállt a nagy hollywoodi stúdiókkal, miután azok tavaly beperelték szerzői jogsértés miatt, mert az MI-alapú képalkotó rendszer képes Supermanről, Batmanről és más híres karakterekről képeket generálni...

szombat 17:01

A Webb-űrtávcső felforgatja a világegyetemről alkotott képünket

Ha a kozmikus rejtélyek foglalkoztatnak, érdemes a James Webb-űrtávcső (JWST) képeire vetni egy pillantást...

szombat 16:31

Az ARToken PhaaS leleplezi az EvilTokens Microsoft 365 adathalász eszköztárát

Érdekes jelenség, hogy az elmúlt időszakban egyre kifinomultabb adathalász szolgáltatások jelentek meg, amelyek célkeresztjében a vállalati felhasználók állnak...

szombat 16:01

Az új brit kriptószabályok fellendítenék a kereskedelmet, de jönnek a buktatók

💸 Érdekes felvetés, hogy az Egyesült Királyság új kriptovaluta-szabályozása globális kereskedelmi lehetőségeket nyithat meg, miközben komoly kihívásokat is tartogat...

szombat 15:30

Az ősi „hobbitok” a komodói varánuszok maradékain lakmároztak

Érdemes megvizsgálni, hogy az indonéziai Flores szigetén egykor élt, Homo floresiensisnek nevezett ősi emberfaj, vagyis a hobbitok, ténylegesen mennyire voltak találékonyak túlélésük során...

szombat 15:01

Az Amazon frissített Fire HD 10-je kicsivel több memóriával érkezik

Az Amazon megújította népszerű Fire HD 10 táblagépét, az egyik legfontosabb változás pedig a memória bővítése: az eddigi 3 GB helyett mostantól 4 GB RAM-mal működik az eszköz...

szombat 14:31

Az adatbiztonság alapja összedőlt – lehet, hogy nincs rá megoldás

Kezdetben a titkosított számítási rendszerek megoldásai technikai áttörést ígértek az érzékeny adatok védelmében...

szombat 11:31

A tűzijáték mellé sarki fény: tucatnyi államban villanhat az ég a hétvégén

🎆 Az Egyesült Államok Függetlenség napja hétvégéjén nemcsak a látványos tűzijátékokban gyönyörködhetnek a lakosok, hanem a szokottnál is élénkebb sarki fény is megjelenhet az éjszakai égbolton...