2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 15:45

Az Amazon májusban lekapcsolja a régi Kindle-olvasókat

📖 Az Amazon bejelentette, hogy május 20-tól megszünteti a 2012 előtt megjelent Kindle e-könyv-olvasók támogatását...

MA 15:23

Az Anthropic ügynökei már helyetted is dolgozhatnak

Érdemes tudni, hogy a Claude fejlesztője, az Anthropic új szolgáltatást kínál azoknak a vállalkozásoknak, amelyek szeretnék automatizálni a napi feladatokat...

MA 15:12

Az iPhone már magától óv? Így aktiváld a biztonsági frissítést

Jó, hogy végre nem kell minden apróbb iOS-frissítésre ráizgulni – az Apple mostantól magától is dolgozik a háttérben!..

MA 15:02

Az asztali PC a végén jár? A Framework már temeti

A Framework április 21-én nagyszabású, Next Gen névre keresztelt eseményt tart, ennek apropóján a cég alapítója, Nirav Patel saját blogposztban fejtette ki a személyi számítógépek jövőjéről alkotott véleményét...

MA 14:56

Az új ChatGPT Pro komolyan megszorongatja a Claude-ot

OpenAI most végre bevezette a 36 500 forintos (100 dolláros) ChatGPT Pro csomagot – na, erre várt mindenki, akit eddig sokkolt a legdrágább előfizetés ára...

MA 14:45

Az új bérátirányítási csalás már a magyar dolgozókat is fenyegeti

Egyre aggasztóbb módszerrel csapnak le a bűnözők a kanadai dolgozók fizetésére...

MA 14:34

Az Alibaba lerántja a leplet titokzatos MI-videógenerátoráról

A kínai Alibaba technológiai óriásvállalat hivatalosan is bejelentette, hogy hozzá tartozik a HappyHorse-1...

MA 14:23

Az űrkutatás új sztárja: a Dragonfly feltárja a Titán titkait

🚀 Az emberiség történetében aligha akad olyan bátor vállalkozás, mint amikor egy nukleáris meghajtású oktokoptert küldenek a Naprendszer legtitokzatosabb holdjára, a Titánra...

MA 14:02

Az áttörés: a β-thalassaemiában is végre célt ér a génszerkesztés

A génszerkesztés évtizedek óta nagy reményeket kelt a gyógyászatban, de hosszú utat kellett megtenni, mire eljutottunk oda, hogy embereken is alkalmazni lehessen...

MA 13:34

Az XRP valóban felkészültebb a kvantumfenyegetésre, mint a Bitcoin?

Az elmúlt időszakban egyre többet hallani arról, hogy a kvantumszámítógépek mekkora fenyegetést jelenthetnek a blokklánc-technológiára és a kriptoeszközökre...

MA 13:12

A 8-as kijárat: Többről szól, mint a rettegés

🚶 Egy zavart fiatal japán férfi siet végig a vakítóan fényes, szürreális folyosón, elkeseredetten számolva az ajtókat, szellőzőket és szekrényeket...

MA 13:02

Az új Google-noteszek tényleg kiváltják az emlékezetünket?

Az új Google Gemini alkalmazás végre olyan funkcióval bővült, amire sokan vártak: bevezették a noteszeket, amelyek egyszerre tárolnak beszélgetéseket, fájlokat és hosszabb távú projekteket...

MA 12:46

Az MI már a vérképből is diagnosztizál – de mennyit ér?

A laboreredmények megérkezése előtti várakozás hetei komoly feszültséget jelentenek sokaknak. És mire végre kézhez kapjuk a labornyelven írt vérvizsgálati leletünket, gyakran nem is értjük, hogy pontosan mi mit jelent benne...

MA 12:23

Az egyik legnépszerűbb WordPress-bővítményt vírusterjesztésre fogták be

Számos WordPress- és Joomla-oldalt veszélyeztet a népszerű Smart Slider 3 bővítményt ért legutóbbi támadás...

MA 12:02

A négynapos munkahét mindent átírna a munka világában?

Az utóbbi időben egyre többen emlegetik a négynapos munkahetet mint a jövő kulcsát — feltéve, ha megfelelően vezetik be...

MA 11:56

Az Alibaba nagy dobása: új MI-modell forradalmasíthatja a videózást

A kínai technológiai óriás, az Alibaba Cloud 2 milliárd jüant (kb...

MA 11:45

A Koppintással megosztás felforgatja az Androidot

📱 Közeledik az Android egy várva várt újítása: a Tap to Share lehetőséget kínál majd fotók, videók, névjegyek, helyadatok és linkek villámgyors átvitelére két telefon között...

MA 11:34

A Microsoft tényleg ellehetetleníti a Firefoxot az Edge trükkjeivel?

A Firefox böngészőt fejlesztő Mozilla éles kritikával illette a Microsoftot, amiért a Windows operációs rendszer és a Copilot mesterséges intelligencia egyre szorosabb integrációja ellehetetleníti a független böngészők versenyét...

MA 11:23

A legújabb Smart Slider-botrány: fertőzött frissítés bénította meg a WordPress- és Joomla-oldalakat

⚠ A népszerű Smart Slider 3 Pro bővítmény frissítőrendszerét sikeresen támadták meg hackerek, majd ártó szándékú frissítést juttattak el a WordPress- és Joomla-rendszerekre...

MA 11:13

Az Orion szivárgó szelepe nem állítja meg az Artemis II-t

A második Artemis-küldetés döntő fázisában jár, amelyben a NASA Orion űrhajója tökéletesen teljesít – azonban egy megmakacsolt szelep miatt mégis újratervezés vár a következő holdrepülésre...

MA 11:01

Rekord tűzveszély fenyegeti idén nyáron az amerikai Nyugatot

Az Egyesült Államok nyugati részén a közeljövőben a szokásosnál jóval nagyobb erdőtüzekkel kell szembenézni...

MA 10:57

A ChatGPT Pro most féláron – kétszeres tempóval!

🚀 A ChatGPT igazán nagy dobással rukkolt elő: mostantól havonta 36 ezer forintért (100 USD) lehet hozzájutni a Pro-csomaghoz az USA-ban, amellyel ötször gyorsabban haladhatsz a kódolással, mint a Plus változattal...

MA 10:36

A MI-chatbotok titkos fegyvere: észrevétlenül vásárlásra csábítanak

Az online vásárlás világa gyorsan átalakul, ahogy a modern MI-technológiákat egyre szélesebb körben vetik be termékajánlásra és reklámozásra...

MA 10:29

A kátyúk tarolnak az utakon – érkezik a digitális javítás?

Felmerül a kérdés, hogy a városok mennyire tudják követni az utak állapotát, hiszen egy váratlan kátyú nemcsak bosszúságot, hanem akár súlyos károkat is okozhat az autóknak...

MA 10:23

A zsarolóvírus a ChipSoftot is térdre kényszerítette

Többek között a holland egészségügyi informatikai piac egyik legnagyobb szereplője, a ChipSoft is kénytelen volt leállítani weboldalát és digitális szolgáltatásait, miután zsarolóvírus-támadás érte...

MA 10:15

Az utolsó próba: tétre megy az Artemis II hazatérése

🚀 Nyolc mozgalmas űrbeli nap után az Artemis II legénysége és a NASA teljes csapata a küldetés utolsó, legkeményebb próbájára készül: az űrhajósoknak épségben kell hazatérniük...

MA 10:10

Az univerzum apró vörös fényei: a mutáns rája-raj titkai

🐡 Érdekes felvetés, hogy a galaxisok fejlődésének rejtett szakaszait egy különleges, távoli rendszer segítheti megfejteni, amelyet az űrtávcsövek csaknem véletlenül fedeztek fel...

MA 10:03

Az olajárak tombolnak: pánik söpör végig a piacokon

Különösen említést érdemel, hogy az olaj világpiaci ára, a Dated Brent, az utóbbi napokban vad kilengéseket produkált, ami súlyos stresszt jelez az energiaszektor szereplőinél...

MA 09:57

Megjött az első valódi kriptóbiztosítás: itt a Nexus Mutual

💰 Több mint 10 ezer tagja van már a Nexus Mutualnak, amely 2019 óta épít decentralizált biztosítási piacot az Ethereum-blokkláncon...