2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

szerda 20:55

A WSOP-on már Solanával is fizethető a nevezés

🃋 A Las Vegas-i World Series of Poker idei versenyén már digitális valutával, a Solanával is lehet nevezési díjat fizetni...

szerda 20:34

A stadion Wi-Fi az igazi veszély: hétből tíz VB-szurkoló kockáztatja adatait

A közelgő 2026-os labdarúgó-világbajnokság apropóján milliók készülnek arra, hogy a stadionokban és környékükön közös élményeken osztozzanak – de nem zárható ki annak a lehetősége, hogy épp ez a lelkesedés teszi őket a digitális bűnözők célpontjaivá...

szerda 20:23

Az új Fable-ben nincs többé szarv vagy glória – mert újraalkothatod magad

💫 Fontos kérdés, mitől lesz igazán egyedi az érkező Mese (Fable) újraértelmezés, amely ezúttal szakít a régi játékokra jellemző, látványos erkölcsi skálákkal...

szerda 20:12

Az első amerikai szabálytervezet: a CFTC felrázza az előrejelző piacokat

Erre utal többek között az, hogy az Amerikai Árutőzsdei Kereskedelmi Bizottság (CFTC) nyilvánosságra hozta az első, előrejelző piacokat érintő szabályozási javaslatát, amely jelentős változást hozhat a sport- és politikai fogadások világában...

szerda 20:01

A végső frissítés: mind a 26 új katalizátor a Destiny 2-ben

⚡ A Destiny 2 végső nagy frissítése minden eddiginél izgalmasabbá varázsolja a fegyvereket...

szerda 19:56

A három pénisszel született férfi, aki halála után felajánlotta testét – orvosi rejtély

A brit egyetem orvostanhallgatóit különleges felfedezés várta, amikor egy 78 éves férfi holttestét boncolták: a férfi nem egy, hanem három pénisszel született...

szerda 19:45

Az atlanti hidegfolt a Golf-áramlat gyengülését jelzi

Az Atlanti-óceán északi részén, Grönland és Izland déli vizein egy furcsa, lehűlt terület jelent meg, amelyet évek óta vizsgálnak a kutatók...

szerda 19:34

Az otthoni iroda új királya: itt a Secretlab Atlas

💼 Fontos kérdés, hogyan tehetjük kényelmessé és praktikusabbá az otthoni munkavégzést. A Secretlab új széke pontosan ezt célozza: az Atlas egy kifejezetten otthoni irodába tervezett szék, amely a kényelmet és az egészséges tartást ötvözi...

szerda 19:23

A testben közvetlenül termel és juttat gyógyszert a génmódosított féreg

🐍 Genetikailag módosított fonálférgek forradalmasíthatják a gyógyszerbevitelt, miután a kutatóknak sikerült olyan horogférget alkotniuk, amely képes létfontosságú antitoxint termelni az élő szervezetben...

szerda 19:12

A Logitech új, összehajtható egere saját hordtáskával érkezik

🖱 A hordozható eszközök forradalma újabb meglepetéssel bővült: a Logitech megalkotta az első összecsukható gamer egeret...

szerda 19:01

A kvantumóra ketyeg: a veszély a Bitcoint fenyegeti, nem az Ethereumot

⌛ Különösen említést érdemel, hogy az utóbbi hónapokban új lendületet kapott a digitális eszközök biztonsági kockázatainak vizsgálata...

szerda 18:44

A CoinDesk 20 esik 1,4%-ot, minden tag mínuszban

📉 A piac egészét rövid idő alatt pirosba borította az eladási hullám, a CoinDesk 20 indexe pedig 1,4%-kal, 1663,81 pontra csökkent a kedd délutáni állapothoz képest...

szerda 18:34

Az Activisiontól mini csodák sorozatával szabadult a Toys for Bob

Érdemes megérteni, hogy a Toys for Bob hosszú utat járt be, míg odáig jutott, hogy újra önálló stúdióként dolgozhasson saját játékán...

szerda 18:24

A gépi tempójú védelem kora: újra kell építeni a SOC-ot

A kibertámadások sebessége és kifinomultsága sosem volt akkora, mint napjainkban. A hagyományos védelmi rendszerek egyre kevésbé tudnak lépést tartani az MI-vezérelt támadásokkal...

szerda 17:01

A bíró lecsapott: MI-halucinációk miatt két év eltiltás, bírság, 60 nap szünet

🚧 Érdemes megérteni, hogy egy amerikai perben egyszerre négy ügyvédet is rajtakaptak azon, hogy valótlan, MI által kitalált jogi hivatkozásokat használtak...

szerda 16:57

Az Anthropic mégis kiadta a túl veszélyesnek ítélt Fable 5-öt

😵 Lényeges szempont, hogy az Anthropic új MI-modellje, a Fable 5 most először válik közvetlenül elérhetővé a nagyközönség számára, noha korábban még maga a cég is túl kockázatosnak tartotta a nyilvános bevezetését...

szerda 16:34

A Philips új égbolt-lámpája lenyűgöz, de okos funkciók nélkül túlárazott

A Philips bemutatta legújabb mennyezeti lámpáját, amely igazi tetőablak-hatását kelti, és a természetes napfény élményét nyújtja a lakásban...

szerda 16:01

A Zcash és a Hyperliquid vezetik az esést, shortolják a bitcoint

📉 A kriptovaluta-piacokat ismét jelentős nyomás alatt tartja a közelgő amerikai inflációs adatok várakozása, miközben a bitcoin árfolyama újra 61 500 dollár (kb...

szerda 15:56

Az MIT új űrhajtóműve akár Marsra repítheti a kisműholdakat

A világűr meghódítása az elmúlt években óriási fejlődésen ment keresztül, de a kis műholdak – az úgynevezett CubeSatok – még mindig komoly korlátokkal küzdenek...

szerda 15:45

A Google Gemini világszerte akadozik: ezt tudjuk eddig a leállásról

⚠ Reggel óta rengetegen tapasztalják, hogy a Google Gemini nem működik rendesen: hibák sorozata jelenik meg az asztali és mobil változatban is, a felhasználók pedig valódi segítség nélkül maradnak...

szerda 15:34

A Microsoft rekordot döntött: több mint 200 sebezhetőséget foltoztak be

A Microsoft minden eddiginél nagyobb javítócsomagot adott ki június közepén, amely majdnem 200 különböző biztonsági rést szüntetett meg a Windows operációs rendszerben és a kapcsolódó szoftverekben...

szerda 15:23

A Kelet-antarktiszi jégtakaró mélyén óriási, legyező alakú szerkezetre bukkantak

🖼 Egy hatalmas, legyezőszerű formációt fedeztek fel a kelet-antarktiszi jégtakaró alatt, amely több, eddig is ismert medencét köt össze a felszín alatt...

szerda 15:12

A júniusi Windows 11-frissítés három nagy dobása: villámgyors appok és menük

⚡ Megérkezett a Windows 11 júniusi frissítése, amely több fontos újdonságot hozott magával, és ha eddig lassúnak érezted a rendszert, most végre fellélegezhetsz...

szerda 14:56

A Bitcoin DeFi-projekt lehúzta a rolót: senkit sem érdekelt

🛑 A Botanix, a Bitcoin második rétegű hálózata, mindössze egy évvel a főhálózat indulása után végleg leállította a működését...

szerda 14:45

A klasszikus agyteszt leleplezte az MI legnagyobb gyengeségét

Miközben a mesterséges intelligencia már esszéket ír, kérdésekre válaszol és bonyolult problémákat old meg, meglepő gyengeségre is fény derült: nehezére esik koncentrálni, ha zavaró tényezők jelennek meg...

szerda 14:34

Az inflációs forgatókönyv, amely 60 ezer alá ütheti a bitcoint

📈 A bitcoin árfolyama hetek óta ingadozik a 61 ezer dolláros szint körül, miközben egyre nagyobb figyelem hárul az amerikai inflációs adatokra...

szerda 14:23

A muslica teljes agytérképe váratlan titkot árult el

Egy nemzetközi kutatócsoportnak először sikerült minden idegsejt-kapcsolatot feltérképeznie egy felnőtt muslica teljes központi idegrendszerében...

szerda 13:56

Az XRP-piacon pánikeladások – közel a mélypont?

📈 Az utóbbi időben egyre többen adják el veszteséggel az XRP-t, ami jelezheti, hogy a piaci lejtmenet a végéhez közeledik...

szerda 13:45

Az Amazon egymilliárd fontot fektet be, 4 ezer új állást teremt Britanniában

💰 Az Amazon komoly lendületet ad az Egyesült Királyság gazdaságának: két vadonatúj létesítmény nyílik Northampton és Kettering városában, összesen több mint 4 000 új munkahelyet teremtve...