2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 06:05

Történelmi események a mai napon (Június 7.)

Rendkívüli nap a történelemben: alkotmányos mérföldkő Angliában, fordulatok a francia és a közel-keleti hadszíntereken, és egy merész légicsapás, amely átírta a Közel-Kelet nukleáris térképét...

szombat 21:22

A looksmaxxing sötét oldala: férfiasságromboló mellékhatások

💀 Lényeges szempont, hogy az utóbbi időben egyre több fiatal férfi próbálja különböző extrém módszerekkel, például plasztikai beavatkozásokkal, hormoninjekciókkal vagy szélsőséges fogyókúrával javítani a külsejét...

szombat 21:12

A kriptópionír, aki 20 millió dollárból milliárdos alapot épített, duplázik bitcoinra

💰 Annak vizsgálata, hogy egy 20 millió dolláros családi befektetésből miként lehet felépíteni egy több mint 1 milliárd dolláros birodalmat a kriptovaluták világában...

szombat 20:56

A nagy pénz megérkezett: a Polymarket már nem csak hóbort

💰 Egy lényeges szempont, hogy a Polymarket és a Kalshi váratlanul hatalmas forgalmat produkálnak, és ezzel magukhoz vonzzák a legnagyobb kvantitatív kereskedési cégeket...

szombat 20:45

Az eltűnt Google-okosóra nyomában: karibi búvárkaland és botrány

Lényeges, hogy a technológiai szivárgások sokféleképpen történhetnek, de néha egészen furcsa fordulatot vesznek...

szombat 20:34

A MI-n túl: konténerek, kvantumcsip – amit kihagytál a Microsoft Builden

⚡ A Microsoft Build 2026 eseményén minden a látványos platformbejelentésekről és MI-bemutatókról szólt, de több rejtettebb újdonság is született, amelyek a következő években még előtérbe kerülhetnek...

szombat 20:22

A tudósok riadót fújnak: veszélyes amőbák terjednek világszerte

😷 Vízhez és talajhoz kötődő mikrobák kerültek a kutatók figyelmének középpontjába mint rejtett veszélyforrások: bizonyos szabadon élő amőbák különösen veszélyessé válhatnak, ahogy a klíma melegszik, és a világszerte elöregedő vízhálózatok karbantartása elmarad...

szombat 20:11

Az erős kvantumállapotok meglepően egyszerű receptje

⚙ Többek között a jövő kvantumtechnológiái, például a szuperérzékeny szenzorok és a kvantumszámítógépek rendkívüli képességei az összefonódás nevű jelenségen alapulnak, amikor részecskék mélyen összekapcsolódnak, és egymásra olyan módon hatnak, amit a klasszikus fizika nem tud megmagyarázni...

szombat 20:01

Az új DMZ egy teljes értékű játék a Modern Warfare 4-ben

🎮 Egy lényeges szempont, hogy a Modern hadviselés 4. (Modern Warfare 4) fejlesztői most egy igazi DMZ-élményt ígérnek a játékosoknak: nem béta, nem mellékes extrakciós próbálkozás, hanem egy kiforrott, önálló játékmód a Call of Duty-univerzumban...

szombat 19:57

Az új őrület, a mogging, mindent eláraszt – gond ez?

A mogging egy pillanat alatt elárasztotta az internetet és a fiatalok szóhasználatát...

szombat 19:45

Az új Star Citizen-patch 385 küldetést hoz, de pilóták robbannak

🚀 A Star Citizen legújabb, Alpha 4.8.1-es frissítése elképesztő mennyiségű, összesen 385 aszteroida-védelmi küldetéssel bővült...

szombat 19:34

A Bitcoin diadalához négy erő kell – Saylor csatakiáltása

💰 Michael Saylor szerint a Bitcoin hosszú távú sikerének titka a különböző felhasználói csoportok együttműködésében rejlik...

szombat 19:22

A miniatűr röntgentávcső lehet a kulcs a Hold rejtett kémiájához

A tokiói kutatók úttörő elképzeléssel álltak elő: egy parányi röntgentávcső segítségével néhány éven belül részletes kémiai térkép készülhet a Hold egész felszínéről...

szombat 19:12

Az Ozempic és hasonló fogyókúrás gyógyszerek 30%-kal csökkenthetik a mellrák kockázatát

💪 Ebből következően érdemes megérteni, hogy egyre több, a fogyást segítő gyógyszer nemcsak a testsúlycsökkentésben, hanem a daganatos betegségek megelőzésében is szerepet játszhat...

szombat 18:56

Az idősek étrend-kiegészítői: mi kell, mi csak pénzkidobás?

Az étrend-kiegészítők iránti kereslet óriásit nőtt az elmúlt években: sokan gondolják, hogy néhány kapszula elég ahhoz, hogy energikusabbak legyenek, erősebb legyen az immunrendszerük, sőt akár tovább is éljenek...

szombat 18:45

A legnagyobb amerikai bankok új digitális pénzhálózattal fékeznék a tömeges betétkivonást

Érdemes megvizsgálni, hogy az Egyesült Államok legnagyobb bankjai hogyan reagálnak a kriptopiac viharos növekedésére: a digitális pénzforgalom felé indulnak, hogy megállítsák a betétek elvándorlását...

szombat 18:34

A Satoshi-korszak bitcoinjai 14 év után megmozdultak a 285 milliárd dolláros perben

💰 2011 óta mozdulatlanul pihenő, 35,55 BTC-t tartalmazó pénztárca mozdult meg a napokban, ébresztve a kriptovilág figyelmét egy több mint 104 ezer milliárd forint (285 milliárd dollár) értékű bírósági ügy közepette...

szombat 18:23

Az éjszakai áramszünet térdre kényszerítette egész Jamaicát

Jamaicában péntek este teljesen elsötétült az ország, miután egy váratlan áramszünet mindenkit érintett...

szombat 16:34

A csillogás és égés: te döntesz!

💫 Bámulatos részletek derültek ki a közelgő sztáresküvőről, amely már most mindenkit lázba hoz...

szombat 16:23

A meggyilkolt James Handy utolsó filmje határozatlan időre dobozban

🕑 A veterán színész, James Handy számos filmben és sorozatban szerepelt pályafutása során, és egészen idén nyárig még egy utolsó projekten dolgozott volna, mielőtt barátnője otthonában meggyilkolták...

szombat 16:12

Az olasz tinik római villát találnak, a Google szúnyoginváziót indít

🏠 Megemlíthető továbbá, hogy a tudományos világ a héten igazán meglepő, évezredek óta rejtőző titkokra bukkant...

szombat 15:12

A világ legbájosabb hűtőmágnese: ez a mini E Ink képkeret

📷 Nem mindennapi látvány, amikor a jól megszokott hűtőmágnesek mellé valami igazán újszerű csatlakozik...

szombat 15:01

A 60 Minutes újabb botránya: bizonytalan a legendás műsor jövője

📺 Az amerikai televíziózás egyik legtöbbet díjazott műsora, a 60 Minutes az elmúlt napokban példátlan felforduláson ment keresztül...

szombat 14:57

A Bloodlines 2 záró DLC-je hozza, ami alapból hiányzott: kardpárbaj, kétpisztolyos harc

🗡 Vámpír: A Maszkabál – Vérvonalak 2 (Vampire: The Masquerade – Bloodlines 2) hosszú és zűrzavaros fejlesztési ciklusának végére ért...

szombat 14:45

A stabil VPN-t találni egyre nehezebb: Kína fokozza a szigort

Habár korábban a VPN-használat egyfajta bűvészmutatványnak számított Kínában, mára a helyzet még szigorúbbá vált...

szombat 14:35

Az Nvidia új chipje és a hét legnagyobb techhírei

Közeledik az év egyik legjobban várt eseménye, az Apple fejlesztői konferenciája, ahol komoly szoftverfrissítéseket és a teljesen megújult Sirit várhatjuk...

szombat 14:23

A kisbefektetők eladják a bitcoint a SpaceX részvénykibocsátásáért?

💰 Erre utal többek között az, hogy a SpaceX rekordösszegű, 27 500 milliárd forintos (75 milliárd USD) tőzsdére lépésekor a szokásosnál jóval nagyobb szeletet, akár a részvények 30 százalékát kínálják fel kisbefektetőknek – például a Robinhood, a Fidelity vagy a Charles Schwab platformján keresztül...

szombat 13:55

A Zcash-hibát MI-vel leleplező kutató auditlistájára tette a Monerót

Fontos kérdés, hogy mennyire bízhatunk a magánéletet védő kriptovaluták biztonságában. Egy népszerű anonim coin, a Zcash nemrég komoly sebezhetőségen esett át, amit egy tapasztalt biztonsági mérnök MI-modellel fedezett fel...

szombat 13:45

A gravitáció erejének rejtélye: miért nem tudjuk pontosan megmérni?

A gravitáció mindennapi tapasztalatunk szerves része – nélküle nem tudnánk a Földön járni, és a Nap sem tartaná pályán a bolygókat...