2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 21:23

Az újabb Vercel-adatlopás több fiókot is érint

Ez a jelenség jól illusztrálható azzal, hogy a Vercel fejlesztői platform adatvédelmi incidense jóval súlyosabbnak bizonyult a kezdeti becsléseknél...

MA 21:12

Az első agyi párbeszéd: mesterséges és valódi idegsejtek összekapcsolódnak

Egészen új korszak nyílhat az agyi technológiákban és az MI-számítógépekben, miután mérnököknek sikerült mesterséges idegsejteket kifejleszteniük, amelyek képesek kommunikálni valódi agysejtekkel...

MA 20:56

A Coachella igazi sztárja: Justin Bieber óriásszivarja

🚬 Képzeld el: Justin Bieber két forró Coachella-fellépése után Los Angelesben ünnepel, egy szusi vacsora és baráti társaságban...

MA 20:45

A kedvenc játékaidat már az MI mozgatja – és észre sem veszed

Felmerül a kérdés, hogy mennyire szövi át az MI a játékfejlesztést, miközben a játékipar éppen nehéz időszakát éli, és a fejlesztők és a játékosok is aggódva figyelik a változásokat...

MA 20:23

Az év legdrámaibb űrpillanata: üstökös és meteor csap össze egy vár felett

🚀 Többek között egészen különleges pillanatot örökített meg két szerencsés fotós a csehországi Kutná Hora várromai felett...

MA 20:11

A kvantumveszély közeleg: így védhető meg 1,7 millió bitcoin

⚠ Többek között a kvantumszámítógépek rohamos fejlődése miatt újra felmerült a kérdés: tényleg összeomlik a bitcoin, ha egy nap feltörhetővé válnak a régi, sebezhető címek?..

MA 20:01

Az éj, amikor vámpírok és poénok elszabadulnak – TMZ Comedy Crawl

🎃 A Hollywood Improvban indult az este, ahol már a kezdetektől ingyen italokkal melegítették be a társaságot...

MA 19:45

A kriptó lett a gépek bankja – az MI fizet

💰 Az elmúlt egy évben elképesztő ütemben terjedtek el az MI-ügynökök, amelyek nem csupán tanácsadói feladatokat, hanem valós pénzügyi tranzakciókat is végrehajtanak...

MA 19:34

Az árnyékbankként működő kriptotőzsdék rejtett veszélyei

A kriptotőzsdék egyre inkább olyan szolgáltatásokat kínálnak, amelyek hasonlítanak a hagyományos banki termékekre, például kölcsönökre és hozamot ígérő konstrukciókra...

MA 19:23

Az óriás médiaegyesülés: elkel a Warner Bros., megnyirbálják a vezér fizetését

Szerdán reggel virtuális közgyűlésen döntöttek a részvényesek: zöld utat adtak a Warner Bros...

MA 19:12

Az Artemis II hőpajzsa sikerrel vette a tűzpróbát

A 2024. április 10-i sikeres visszatérés után az Artemis II hőpajzsa makulátlanul teljesített: az Orion űrkapszula vízreszállása után az amerikai haditengerészet búvárai különleges víz alatti fotót készítettek a jármű aljáról, amelyen jól látható, hogy a hőpajzs szinte érintetlen maradt...

MA 19:01

Az MI-ügynökök összedolgoznak: megérkezett a BAND nagy dobása

Különösen igaz ez akkor, ha egy vállalat egyszerre több MI-ügynököt alkalmaz, amelyek egymással is kommunikálnak...

MA 18:56

A szuperidősek titka: így marad éles az agy idősen

Több mint 25 éve kutatják a Northwestern Medicine szakemberei azokat a 80 év feletti embereket, akik szinte fiatalos szellemi frissességet őriztek meg idős korukra...

MA 18:45

A mesterséges intelligencia új fizikai törvényeket fedezett fel a plazmában

A fizikusok mérföldkőhöz érkeztek: saját fejlesztésű neurális hálózatuk segítségével korábban ismeretlen részleteket tártak fel a részecskék kölcsönhatásáról az úgynevezett porplazmában...

MA 18:34

Az újabb Tether-blokád: 120 milliárdot tiltott pénzek miatt fagyasztottak

A Tether mintegy 344 millió dollárnyi (közel 120 milliárd forint) USDT-t fagyasztott be a Tron-blokkláncon két pénztárcában, miután amerikai hatósági megkeresés nyomán felmerült a gyanú, hogy a digitális pénzek tiltott tevékenységhez kapcsolódnak...

MA 18:23

Az űripar új ütőkártyája: a SpaceX saját GPU-t épít

🚀 Érdekes felvetés, hogy Elon Musk cégbirodalma már nemcsak rakétákkal és MI-kutatással, hanem saját grafikus processzorokkal is próbálkozik...

MA 17:56

Az új WoW-frissítés teljes káoszt hozott: hibák özöne

A World of Warcraft legutóbbi, 12.0.5-ös frissítése minden eddiginél több hibát hozott magával, amelyek a játékosok kedvét is alaposan elveszik...

MA 17:34

Az új Kötelesség hívása-film felforgatja a Yellowstone-univerzumot

🎬 Taylor Sheridan íróként és Pete Berg rendezőként érkezik a Kötelesség hívása (Call of Duty) filmhez, amelynek bemutatóját 2028...

MA 17:23

Az egyiptomi múmia gyomrában bukkantak rá az Íliász egy darabjára

🗡 Erre utal többek között az, hogy régészek Egyiptomban egy római kori múmia hasüregében Homérosz Iliászának (The Iliad) papiruszára bukkantak...

MA 16:56

A Fragmentary Order: fájdalom, kihívás, véres mámor – nem az Arc Raiders

Még mindig sokan szeretik azt az izgalmat, amit csak egy igazi, keményvonalas extraction shooter képes adni, és Nikita Buyanov, a legendás Tarkov atyja ezt most keményen az arcunkba is tolja a Fragmentary Orderrel...

MA 16:45

Az új bélflóra-helyreállítás megelőzheti a visszahízást Ozempic után

Az elhízás elleni szerek, mint az Ozempic és a semaglutid segítségével sokan jelentős súlytól szabadulnak meg, ám a legtöbben a kezelés abbahagyását követően rövid idő alatt visszahíznak...

MA 16:34

Az új Framework 13 Pro akkuidőben mindenkit leiskoláz

💻 A hordozható gamer gépeken dolgozók életét gyakran keseríti meg a lemerülő akkumulátor réme, de most úgy tűnik, új időszámítás kezdődhet: a Framework 13 Pro meglepően hosszú üzemidőt nyújt...

MA 16:23

A Marson tényleg óriási „sárkánypikkelyek” hullámzanak a felszínen?

🐳 A NASA Curiosity marsjárója olyan furcsa, óriási, sokszög alakú képződményeket fotózott a vörös bolygón, amelyek első pillantásra leginkább hatalmas, fosszilis hüllőpikkelyekre emlékeztetnek...

MA 16:12

Az öt legjobb ok, hogy most vegyél ventilátort – ne várj a kánikuláig

👀 Ahogy beköszönt a jó idő, hirtelen megemelkedik a hőmérséklet, sorra lobban fel a grillek lángja, és egy szempillantás alatt elkapkodják a boltokban a ventilátorokat...

MA 16:02

A DJI Lito X1 lett a belépő drónok új királya

🚁 A DJI új Lito sorozata alaposan felforgatja a kezdő drónok piacát...

MA 15:56

Az OpenAI ingyenes adatvédelmi eszköze valóban letarolja a piacot?

Az OpenAI jelentős lépést tett az adatvédelem felé a Privacy Filter nevű új, nyílt forráskódú modell megjelenésével...

MA 15:45

Az inflációs sokk megakasztja a Bitcoin raliját

💸 Az elmúlt hetekben úgy tűnt, hogy a Bitcoin újabb áttörés előtt áll, amikor egészen 80 000 dollárig (kb...

MA 15:34

Az MI feletti hatalomért folyik a könyörtelen küzdelem

Az összetett MI-ügynökök bevezetése a vállalatok életébe alaposan felforgatja az eddig ismert gyakorlatokat...

MA 15:24

Az örökletes süketség áttörő terápiája végre visszahozhatja a hallást

A világ legnagyobb és leghosszabb ideig tartó génterápiás vizsgálata 90%-os javulást mutatott azoknál, akiknél veleszületett süketséget kezeltek...