2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

csütörtök 18:02

A SpaceX tőzsdére készül: 2 billiós értéket jósol a kriptópiac

🚀 Elon Musk cége, a SpaceX a tőzsdére lépés küszöbén áll, a részvények kereskedése holnap indul a Nasdaqon...

csütörtök 17:56

Az amerikai adatközpont-vitát MI-vel hamis, Kínához köthető fiókok befolyásolták

🔮 Az OpenAI több fiókot is letiltott, amelyek a közösségi médiában igyekeztek befolyásolni az adatközpontokkal és Trump elnök vámjaival kapcsolatos amerikai vitát...

csütörtök 17:45

A TSMC máris újabb chipáremelést lebegtet – nem fog tetszeni

📈 Külön említést érdemel, hogy a számítástechnikai alkatrészek ára az utóbbi években folyamatosan nő, és nem látszik lényegi fordulat...

csütörtök 17:02

Az Insta360 Luna Ultra 8K tényleg letaszítja a DJI Pocket 4-et?

Az Insta360 új, kétkamerás Luna Ultra kamerája forradalmi újdonságot hoz a vlogging világába, hiszen 8K felbontású videózásra képes, és már 280 ezer forint körüli áron (769,99 USD) beszerezhető...

csütörtök 16:56

Az RMT-kaszinóbotok ellepték a városokat, de jön a visszavágó

🎲 Különösen igaz ez akkor, ha valaki a World of Warcraft Classic világában jár: a játékban megjelentek azok a botok, amelyek valódi pénzért cserébe árulják a játékbeli aranyat – megszegve ezzel minden szabályt...

csütörtök 16:45

Az egyik legfurcsább ujjbegyes egér: építsd meg, ha feláldozol egyet

Annak kiderítésére, hogy mennyire lehet újragondolni egy gamer egeret, valaki most egy valóban bizarr, ujjheggyel vezérelhető „pókhálós” egeret készített 3D-nyomtatható műanyag vázzal...

csütörtök 16:23

Az Alienware AW2525HM: 320 Hz-es bestia, de nem mindenkinek

👽 Az Alienware AW2525HM egy kimondottan gyors monitor, amit kifejezetten azoknak terveztek, akik a legkiemelkedőbb teljesítményt keresik kompetitív FPS játékokhoz...

csütörtök 15:12

A 2026-os vb nyitóünnepsége élőben: ingyen, tévén és neten

🏆 Érdemes tudni, hogy a 2026-os labdarúgó-világbajnokság minden eddiginél grandiózusabb lesz: összesen 48 ország csap össze 104 mérkőzésen, 39 napon keresztül, ráadásul három ország – Mexikó, Kanada és az Egyesült Államok – egyaránt otthont ad a meccseknek...

csütörtök 14:56

A ritka sírlelet rejtélye: nő, újszülött és egy ló teljes bőre Szibériában

👷 Dél-Szibériában kivételes sírt tártak fel, amelyben egy körülbelül 40 éves, középkori nő, újszülött gyermeke és egy teljes ló bőre feküdt egymás mellett...

csütörtök 14:45

Az Apple váratlanul két Apple TV-t ejtett a tvOS 27-ből

Az Apple idén váratlanul kizárta a 2015-ös Apple TV HD-t és az első generációs Apple TV 4K-t a legfrissebb, tvOS 27 frissítéséből...

csütörtök 14:34

A Corsair Galleon 100 SD: Stream Deck és K70, minden extrával

🖥 Megemlíthető továbbá, hogy a Corsair Galleon 100 SD nem hétköznapi mechanikus billentyűzet: két legendás termékvonal, az Elgato Stream Deck és a K70 billentyűzet technológiáit vegyíti...

csütörtök 14:23

A Bitcoin áttör és tart egy kulcsszintet, amit Ether, Solana nem

💸 Felmerül a kérdés, hogy meddig tart még a Bitcoin lendülete, miközben a többi kriptovaluta látványosan gyengélkedik...

csütörtök 13:45

Az óriási szakadék: a legtöbben semmit sem tudnak az adatközpontokról

Felmerül a kérdés, hogy mennyire vagyunk tisztában a mindennapi digitális életünket fenntartó technológiákkal...

csütörtök 13:34

A Fülöp-szigeteki jegybank: engedély nélkül működik a Binance és partnere

Erre utal többek között az, hogy a Fülöp-szigeteki központi bank szerint a világ egyik legnagyobb kriptotőzsdéje, a Binance, valamint helyi partnere, a BlockShoals Technologies Inc...

csütörtök 13:12

A DBS már lakossági ügyfeleknek is kínál tokenizált aranyat

🥇 A szingapúri DBS Bank idén bejelentette, hogy 2026 második felétől már nemcsak az intézményi befektetők, hanem a hétköznapi ügyfelek is egyszerűen, új, digitális formában vásárolhatnak aranyat...

csütörtök 13:02

Az Egyesült Királyság így csap le az iparosított kriptocsalásra

Ebből következően érdemes megérteni, hogy napjainkra a kriptovalutához köthető csalások ipari méreteket öltöttek...

csütörtök 12:56

Az aranyszemcsék indíthatták be az életet a Földön?

🤑 Erre utal többek között az is, hogy a tudomány mindmáig nem találta meg az egyértelmű választ arra, miként alakultak ki az első élő rendszerek a Földön...

csütörtök 12:45

Az MI-átláthatóság lazul, a kockázat a vállalati IT nyakába szakad

⚠ Európában egyre élénkebb vita folyik arról, mennyire legyenek szigorúak a mesterséges intelligenciára vonatkozó átláthatósági szabályok...

csütörtök 12:34

A BlackRock hozamfizető bitcoin ETF-je rajtra kész, árháborút indít

🚀 A BlackRock új bitcoin-alapja hamarosan elindul, és a versenytársaknál alacsonyabb díjjal csábítja a befektetőket...

csütörtök 12:23

Az OpenAI–Visa megállapodás: az MI hamarosan helyetted vásárol és fizet

Fontos kérdés, hogy mennyiben változtatja meg mindennapi vásárlási szokásainkat, ha a mesterséges intelligencia már nemcsak segítséget nyújt, de szinte teljesen át is vállalhatja a vásárlási folyamatot...

csütörtök 12:02

A műfűben 400 vegyi anyag – mennyire veszélyes?

Június 12-én a világ legjobb focistái ismét igazi füvön lépnek pályára a Los Angeles-i SoFi Stadionban, amikor az Egyesült Államok Paraguayjal mérkőzik meg a világbajnokságon...

csütörtök 11:56

A tudósok leállítják a rák DNS-javítását, áttörve a gyógyszerrezisztenciát

Fontos kérdés, hogy miért tud a rák olyan makacsul ellenállni a kezeléseknek, és miért válnak bizonyos daganatok egy idő után szinte legyőzhetetlenné...

csütörtök 11:45

A Microsoft okozta memóriaár-válság az Xboxot is térdre kényszerítheti

📈 Meglepő fordulatot vett a következő Xbox-generáció fejlesztése, ugyanis a Microsoft egyre inkább azzal számol, hogy nem tud olyan konzolt piacra dobni, amely valóban modernnek érződik, és közben a legtöbb ember számára elérhető áron kínálható...

csütörtök 11:23

A LibreOffice szerint az Euro‑Office a Microsoft foglya – orosz szálakkal?

🕵 Az utóbbi időben heves vita alakult ki arról, mennyire szolgálja az állítólagosan európai fejlesztésű Euro-Office a digitális szuverenitás eszméjét...

csütörtök 11:13

A 2026-os FIFA-vb bárhonnan: így hallgathatod élőben

🎙 A 2026-os FIFA-világbajnokság minden mérkőzését élőben követheted, még akkor is, ha éppen nem vagy otthon...

csütörtök 10:57

Az MI és a big data megelőzné a hajléktalanságot – Vilmos herceg programja

Az Egyesült Királyságban nagy lépés készül a hajléktalanság felszámolására: egy több mint 25 szervezetet összefogó új kezdeményezés indult útjára, melynek célja, hogy korszerű adatkezeléssel és MI segítségével megelőzhetővé váljon a hajléktalanság...

csütörtök 10:47

A sejtek öregedésének rejtett, visszafordítható okát találták meg

Az évek múlásával testünk sejtjei egyre kevésbé képesek energiát termelni és alkalmazkodni a változó igényekhez...

csütörtök 10:37

A DDR5-árak 2028-ig nem normalizálódnak – sőt, ez optimista

A számítógép-alkatrészek folyamatos drágulása ismét a középpontba került: iparági vezetők szerint a DDR5 RAM-árak még legalább két évig biztosan nem térnek vissza elfogadható szintre, sőt egyesek szerint az igazi normalizálódásra akár 2029-ig vagy 2030-ig is várnunk kell...

csütörtök 10:28

A Kingdom Hearts 4 előzetesében Héraklész és Elemi, dátum sehol

💓 A rajongók már hosszú ideje várják a következő nagy Kingdom Hearts-játékot, de a várakozás egyelőre nem lett könnyebb...