2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 21:46

Az otthoni iroda trónja: gamer szék, ami mindent túlél

💪 Ami kezdetben ártalmatlannak tűnt, az utóbbi években jelentősen megváltozott: világszerte milliók home office-ba kényszerültek, ami alaposan átrajzolta, mit várunk el az irodabútortól...

MA 21:01

Az Andes-vírus rejtett kockázatai: mi számít közeli kontaktusnak?

A közelmúltban egy tengerjáró hajón történt hantavírus-kitörés miatt jelenleg mintegy 150 utast figyelnek meg, illetve akár hathetes karanténba is helyeznek...

MA 20:56

Az XRP lenyomta a Bitcoint, de a nagy ralihoz kell a Kongresszus

📈 Az XRP ára jelentősen megugrott, miután az amerikai szenátus bankügyi bizottsága előrelépést tett a Digital Asset Market Clarity Act ügyében...

MA 20:46

A nyolcéves afroamerikai kisfiú rejtélye: fehér telepesek közé temetve Marylandben

🕵 Egy 17. századi marylandi temető különös titkot rejtett: egy mindössze nyolcéves fiú földi maradványait találták meg, aki túlnyomórészt afrikai származású volt...

MA 20:34

Az agy rejtett tápanyaghiánya állhat a szorongás mögött

Az agyunk működése mögötti titkos összetevőkre újabb fény vetült: amerikai kutatók felfedezték, hogy a tartós szorongással élőknél kimutathatóan kevesebb található egy létfontosságú agyi tápanyagból, amelyet az emberek többsége amúgy is hiányosan visz be...

MA 20:22

Az elszálló energia- és műtrágyaárak kétségbe ejtik a gazdákat

Felmerül a kérdés, meddig bírják még a mezőgazdasági termelők a folyamatosan növekvő költségeket...

MA 20:12

A Google nem veszi el a 15 GB-ot – számot kér érte

💰 Az új Gmail-fiókok tulajdonosai néhány országban kellemetlen meglepetéssel szembesülnek: a megszokott 15 GB ingyenes tárhely helyett kezdetben csak 5 GB-ot kapnak...

MA 20:01

A kriptós hozaméhség milliárdokat sodor hackerveszélybe

A decentralizált pénzügyek világa 2020-ban új alapokra helyezte a digitális pénzügyeket: közvetítők nélkül, globálisan elérhető rendszert ígért...

MA 19:55

Az öregedés és krónikus betegségek mögött apró bélrészecskék rejtőzhetnek

🤒 Az öregedéssel és krónikus betegségekkel kapcsolatban egészen új tényezőt fedeztek fel a kutatók: a bélben képződő parányi részecskék, úgynevezett exoszómák is kulcsszerepet játszhatnak a szervezet gyulladásos folyamataiban...

MA 19:34

A MercurySteam-nél zajló fájdalmas leépítések közepette érkezik a Blades of Fire Steamen

A Metroid Dread fejlesztőjeként ismert MercurySteam komoly változások elé néz: a stúdió kénytelen volt elbocsátásokat bejelenteni, miközben legújabb akciójátékuk, a God of War-hangulatú Blades of Fire végre Steamen is elérhetővé vált...

MA 19:23

Az óceán mélyén felfedezett fékek állítják meg a hatalmas földrengéseket

Több mint 1600 kilométerrel Ecuador partjaitól nyugatra, a Csendes-óceán mélyén található Gofar-törésvonal már legalább harminc éve szinte óraműpontossággal produkál nagy, 6-os erősségű földrengéseket...

MA 19:01

A szenzációs etióp ősmaradvány átírja az emberi eredet történetét

👑 A legújabb etiópiai leletek alaposan átírják, amit az emberi fejlődésről eddig tudtunk...

MA 18:55

Az univerzum rejtett főútjai: először fotózták le a kozmikus hálót

💫 A tudósoknak most először sikerült közvetlenül lefotózniuk a kozmikus hálót, vagyis azt a rejtett, óriási anyaghálózatot, amely a galaxisokat kapcsolja össze az univerzumban...

MA 18:45

A 293 millió dolláros KelpDAO-hack: a DeFi felnövésre kényszerül

A decentralizált pénzügyek (DeFi) világa új korszakhoz érkezett: a KelpDAO-nál történt közel 108 milliárd forintnyi (293 millió dollár) értékű hackertámadás világossá tette, hogy már nem elsősorban a programozási hibák jelentik a fő veszélyt, hanem a rendszerek egyre növekvő összetettsége és a mögöttes infrastruktúra...

MA 18:34

A végső falat: közeleg A Mackó utolsó évada

🍽 Ki hinné, hogy egy chicagói étterem konyhája ilyen hamar meghódítja a világot?..

MA 17:23

A Chelsea–Man City FA-kupa-döntő: ingyenes közvetítések, csatornák, csapathírek

⚽ A 2026-os FA Kupa-döntőben két olyan csapat csap össze, amelyek számára kulcsfontosságú a győzelem – bár mindkettő csalódásokkal teli időszakot igyekszik felejteni...

MA 17:12

A Lenovo csodatöltője itt van – de sosem juthatsz hozzá

⚡ Megérkezett a Lenovo Legion P5 10000, amely kis mérettel és megnyerő dizájnnal igyekszik minden helyzetben biztosítani a töltöttséget...

MA 16:02

A Googlebook alig debütált, máris 5 dolog, amit utálnak benne

👎 Ez a jelenség jól illusztrálható azzal, hogy alig jelentették be a Google legfrissebb laptopját, a Googlebookot, máris komoly negatív visszhangot kelt az interneten...

MA 15:35

A Dyson HushJet kompakt légtisztító: csendes erő kis méretben

💫 Fontos kérdés, hogy lehet-e egy légszűrő egyszerre kicsi, halk és mégis nagy teljesítményű...

MA 15:13

Az ingyenes videoszerkesztő, amely felforgatja a fotósok és filmesek világát

Az utóbbi években óriási átalakulás ment végbe abban, ahogyan fényképeket és videókat készítünk...

MA 14:56

A raidek? Ugyan: a horgászat a Final Fantasy XIV igazi pokla

A világ vége már többször elmaradt, de egyetlen hal kifogása még mindig lehetetlen küldetésnek tűnik...

MA 14:46

Az e heti tudomány: új név a PCOS-nek, neandervölgyi fogorvosok, idegen kristály

Május közepén különösen sok izgalmas tudományos felfedezés került napvilágra. Az egészségügytől kezdve a történelem előtti fogorvoslásig, sőt, egészen a nukleáris kísérletek által született különleges kristályokig szóltak a hírek – és ezek nem csupán a tudósokat, hanem a hétköznapi embereket is gondolkodásra késztették...

MA 14:35

A Fallout alkotója szerint akár horkoló tehéngyűlölő, ufóhívő is lehettél volna

👽 A Fallout ma már legendás szerepjátékrendszere, a S.P.E.C.I.A.L., csak a játékfejlesztés utolsó szakaszában került képbe...

MA 14:23

A nászharangok szólnak: Taylor Swift és Travis Kelce randiznak New Yorkban

Különösen igaz ez akkor, ha két világsztár randevúzik a reflektorfény közepén: Taylor Swift és párja, Travis Kelce ismét együtt mutatkoztak New Yorkban...

MA 14:01

A növényektől is elkaphatunk betegséget?

🌲 A sci-fi filmek gyakran rémisztgetnek azzal, hogy az emberek növényi kórokozóktól kapnak halálos fertőzéseket, de vajon reális ez a forgatókönyv?..

MA 13:56

A LIRR új sztrájkja napokra megbénítja egész New Yorkot

A Long Island Rail Road (LIRR) dolgozói hajnalban sztrájkba kezdtek, miután péntek este zátonyra futottak a bértárgyalások...

MA 13:34

A hét 7 legnagyobb techsztorija: Android 17-től a feltört kriptotárcáig

🚀 Április közepe technológiai fronton igazán eseménydúsan telt: a legnagyobb mobiloperációs rendszerek frissítései és néhány szokatlan újdonság is napvilágot látott...

MA 13:23

Az év meccse: ma dől el a skót cím, Celtic–Hearts

Az idei skót bajnokság utolsó nagy összecsapása minden eddiginél feszültebbnek ígérkezik, hiszen eldől, kié lesz a bajnoki cím: a többszörös győztes Celtic vagy a bajnoki aranyra 66 éve éhező Hearts örülhet a lefújáskor...

MA 12:56

A frissen felfedezett, kékbálna-méretű aszteroida hétfőn szinte súrolja a Földet – nézd élőben!

🚀 Egy kivételesen nagy, frissen felfedezett aszteroida, amely akár 35 méter átmérőjű is lehet, hétfőn szokatlanul közel száguld el a Föld mellett, ráadásul élőben is megtekinthető lesz...