2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 11:12

A következő kriptohét tétjei: munkaerőpiac, gyorsjelentések, sorsdöntő szavazások

A kriptopiac a május első hetében igazi izgalmakat tartogat. Három fontos próbatétel közeleg: az amerikai foglalkoztatási adatok publikálása, a legnagyobb tőzsdék és bányászvállalatok eredményjelentései, valamint döntő szavazások több decentralizált szervezetben...

MA 11:03

A ZimaCube 2: az otthoni adattárak svájci bicskája

Ez a jelenség jól illusztrálható azzal, milyen tempóban fejlődnek az otthoni hálózati adattárolók: míg néhány éve a terabájtos RAID-tömbök, a PCIe-bővítés vagy a villámgyors Thunderbolt csak vállalati környezetben volt elérhető, ma már egy átlagos otthoni NAS is ilyen extrákkal kecsegtet...

MA 10:57

Az evolúció titkos kódja: 120 millió éve változatlan gének?

A Földön élő pillangók és molylepkék elbűvölő színei nem véletlenül hasonlítanak egymásra, még akkor sem, ha csak távoli rokonok...

MA 10:49

Az Ozempic meglepő hatása: kevesebb depresszió és szorongás

A cukorbetegség és elhízás kezelésére szolgáló gyógyszerek, mint az Ozempic és a Wegovy, nem várt pozitív hatásokat hordozhatnak a mentális egészségre is...

MA 10:42

A visszatérő ETF-láz mellett hová tűnt a bitcoin-mámor?

📈 Az amerikai spot bitcoin ETF-ek újra magukra találtak: az elmúlt két hónapban 3,29 milliárd dollárnyi befektetést vonzottak...

MA 10:36

A ragyogó, egészséges haj hét apró titka, ami csodát tesz

Túlgondolt hajápolási rutin helyett néhány szokás kis megváltoztatása látványosan egészségesebbé és fényesebbé varázsolja a hajad — ráadásul nincs szükség drága hajszárítóra vagy formázóra sem...

MA 10:28

Az Alzheimer-gyógyszerek csődöt mondanak, és fokozhatják az agyi kockázatokat

🔴 Egy átfogó nemzetközi vizsgálat kimutatta, hogy az Alzheimer-kór kezelésére fejlesztett szerek, amelyek az agyban felhalmozódó amiloid-béta fehérjét célozzák, nagy valószínűséggel nem hoznak valódi javulást a betegek életében...

MA 10:22

Az igazi névtelenség közelebb: új fizetési mód a NymVPN-nél

🔒 A NymVPN forradalmi újítással állt elő, amely alapjaiban írja át az online névtelenség eddigi fogalmát...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 5/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     PostalCal (iPhone/iPad)A Postal Employee Day Off Calendar egy könnyen kezelhető, kifejezetten az Amerikai Postaszolgálat munkatársai és családjaik számára készült naptáralkalmazás...

MA 08:57

Az XRP 1,40 dollár fölé száguldott – meddig tarthat?

🚀 Az XRP ára az ázsiai piacnyitáskor hirtelen megugrott, áttörve az 1,40 dolláros (kb...

MA 08:49

A Bitcoin visszatért 80 ezer dollár fölé: tartós ez a rali?

💸 Különösen igaz ez akkor, ha egy látszólag masszív árfolyam-emelkedés mögött valójában nem a valódi kereslet áll...

MA 08:43

Az Amnezia VPN mostantól tényleg minden kiskaput végleg lezár

Az Amnezia VPN legújabb, 4.8.15-ös verziója minden nagyobb operációs rendszeren elérhető, és egyszerre hoz jelentős hibajavításokat, kiemelten fontos biztonsági frissítést, valamint számos felhasználóbarát újítást...

MA 08:36

Az őszi zuhanás után 2029-ben kilőhet a bitcoin

📈 A tapasztalt tőzsdei kereskedő, Peter Brandt egyedi előrejelzéssel állt elő: a bitcoin ára 2029 végére elérheti a 250 000 dollárt (kb...

MA 08:29

Az óriáscég befagyasztotta a bitcoin-vásárlást – meddig marad így?

💸 A MicroStrategy meglepetésszerűen felfüggesztette heti bitcoin-vásárlási programját a negyedéves jelentés előtt...

MA 08:21

A Dogecoin most száguld, de jön a bökkenő

Reggelre a Dogecoin hirtelen, egyetlen lendülettel 4%-ot ugrott, miközben a bitcoin 80 ezer dollár (kb...

MA 08:01

Az Xbox legsötétebb napja: fejlesztők, elbocsátások és végtelen körforgás

💀 Matt Firor, a ZeniMax Online Studios alapítója elég markánsan emlékszik vissza arra a napra, amikor egy húzással két nagy stúdiót, a Tango Gameworksöt és az Arkane Austint is bezárták az Xboxnál...

MA 07:57

Az MMO-k halhatatlansága: tényleg már 2001-ben temették őket?

🕷 Senki sem várta volna, hogy a többjátékos online szerepjátékokat (MMO-k) már több mint húsz éve is temették...

MA 07:50

Az ódon épületek borzongása: tényleg az infrahang a ludas?

A régi házakban vagy pincékben sokan titokzatos, megmagyarázhatatlan nyugtalanságot éreznek, akár anélkül, hogy bármi szokatlant látnának vagy hallanának...

MA 07:43

A legendás Warcraft III visszatért a Battle.netre

🎮 Hosszas várakozás után a klasszikus Warcraft III újra elérhető a Battle...

MA 07:36

A Marvel még az MI-nél is szigorúbb: amikor Juggernaut nem ugorhatott

Az 1990-es években a Marvel világa nyitott a videojáték-fejlesztés felé, de hőseinek és gonosztevőinek kezelése terén minden apró részletre odafigyelt...

MA 07:28

A maláriás szúnyogok újraírják az evolúció törvényeit

A malária nemcsak megtizedelte őseinket, hanem döntően befolyásolta, hol élhettek, hogyan alakultak közösségeik és végső soron miként jutottunk el idáig...

MA 07:22

A mormon feleségek titkos életéből kiszáll Whitney Leavitt – nagy Broadway-bejelentés

Whitney Leavitt, aki A mormon feleségek titkos élete (Secret Lives of Mormon Wives) egyik főszereplője, váratlanul jelentette be távozását a népszerű Hulu-sorozatból – épp a Broadwayn futó, nagysikerű Chicago (Chicago) előadásán, vasárnap este...

MA 07:15

Az internet temeti Olivia Wilde-ot, pedig csak a kamera halt meg

💀 Olivia Wilde legutóbbi vörös szőnyeges megjelenésével nem kis riadalmat keltett: igencsak furcsán festett a San Francisco-i Nemzetközi Filmfesztiválon, ahol új filmjét, A meghívót (The Invite) népszerűsítette...

MA 07:08

A miami kriptocsúcs idei legütősebb pillanatai

💸 Miami a héten igazi kriptófővárossá válik, ahol a Consensus 2026 konferencia több tucat szakmai vitával és kulisszatitkokkal kecsegtet...

MA 07:02

A robotcowboyok tarolnak: megint bedőlt egy online lövölde

🤠 Hatalmas hullámvölgyek jellemezték az idei évet az online többjátékos játékok piacán, ahogy ez a korábbi években is megszokottá vált...

MA 06:57

A NYT Connections ravasz játéka: te hány csoportot találsz el?

A Connections mai kihívása komoly fejtörést okozott a játékosoknak. Tizenhat szó közül kell megtalálni azokat a négyes csoportokat, amelyek valamilyen témában összetartoznak...

MA 06:49

Az amerikai óriásbankok már közel a Bitcoinhoz – de kivárnak

💰 A nagybankok – köztük a Morgan Stanley – egyre komolyabban foglalkoznak a digitális eszközök piacával, miután nő az ügyféloldali igény a Bitcoin iránt...

MA 06:43

A hullámvasúton szárnyal Jeremy Allen White – a gyerekei is!

🎉 Nem hiszem el, de Jeremy Allen White nemcsak a Star Wars univerzumában repked, hanem most éppen a valóságban is rátolt egy nagy adrenalinbombát a gyerekeivel!..

MA 06:36

A Norton lerántotta a leplet az első MI‑ügynökös VPN-ről

💡 A Norton VPN for Agents a VPN-ek világában egy teljesen új irányt képvisel: kifejezetten MI-ügynökökre optimalizált, önállóan működő megoldásról van szó, amely feleslegessé teszi a klasszikus kliensalkalmazásokat és a bonyolult telepítési folyamatokat is...