2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 15:38

Az elektromosautó-piaci megtorpanás felforgatja az amerikai Dél gyárait

🚘 Az elmúlt években autógyártók, akkumulátorgyártók és beszállítók több százmilliárd dollárt – közel 73 000 milliárd forintot – fektettek be az elektromos járművek (EV) gyártásába az Egyesült Államokban, ebből csaknem a felét a déli régiókban, főként republikánus vezetésű államokban...

MA 15:19

A Micron lehet az MI-forradalom nagy nyertese: óriásit ugorhat 2026-ban

Az MI-infrastruktúra-fejlesztés idén új lendületet kapott, és a tőzsdei szereplők egyre inkább a félvezetőszektorra, azon belül is az eddig kevésbé reflektorfényben lévő cégekre figyelnek...

MA 15:02

Az óriásleépítés új irányt szab Zuckerberg jótékonyságának

💰 A Chan Zuckerberg Initiative (CZI) 2026-ot jelentős átalakításokkal indította: 70 munkatársat bocsátottak el, hogy átformálják a szervezetet, és az erőforrásokat az MI-alapú biomedicinai kutatások felé irányítsák...

MA 14:55

A Richard-rejtély: a középkori pecsét, amely római kincset őriz

Egy különleges középkori pecsétnyomót találtak Essex megyében, amely nemcsak koránál fogva, hanem titokzatos összetétele miatt is lenyűgöző...

MA 14:19

Az arany bukása után a kriptó is összeomlott

A hétvégén jelentős esésbe fordultak a kriptovaluták, miután a bitcoin értéke 79 000 dollár (kb...

MA 14:04

Az üzleti jövő laptopja: Asus ExpertBook Ultra 2026

Az Asus legújabb ExpertBook Ultra laptopja egyszerre célozza meg az üzleti felhasználókat és a technológiai újítások rajongóit...

MA 13:37

Az MI átírja a minneapolisi lövöldözések történetét

🔍 Az utóbbi napokban Alex Pretti halálos minneapolisi lövöldözésének képei és videói futótűzként terjedtek a közösségi oldalakon – ám ezek jelentős része mesterséges intelligencia által manipulált...

MA 13:20

A Hubble megmutatja, hol születnek a csillagok

A NASA Hubble-űrteleszkópja lenyűgöző felvételt készített a Skorpió csillagképben található Lupus 3 molekulafelhőről, ahol gáz- és porfelhők közepette fiatal csillagok születnek...

MA 13:04

Az MI-keresők csődöt mondanak: csak feldarabolják a technikai dokumentumokat

⚠ Fontos kérdés, hogy miért működnek annyira rosszul a vállalati MI-alapú keresők a bonyolult technikai dokumentumokkal, miközben elsőre azt ígérik, hogy bármilyen PDF vagy kézikönyv tartalmát percek alatt feldolgozzák...

MA 12:58

Az új kínai rövid videók felforgatják Latin-Amerikát

Latin-Amerikában forradalmian átalakul a videostreaming-piac, ahogy egyre nagyobb teret nyernek a Kínához köthető röviddráma-platformok...

MA 12:37

Az ex-Google mérnök lebukott: sorra szivárogtatta az MI-titkokat

A San Franciscóban tartott, 11 napos tárgyaláson a bíróság bűnösnek találta Linwei Ding volt Google-fejlesztőt, aki bizalmas MI-szuperszámítógép-technológiákat juttatott el kínai cégeknek...

MA 12:19

Az AYANEO végre tartja a határidőt: megjött a Pocket S Mini

Az AYANEO alaposan meglepte a játékos közösséget: ezúttal kihagyott mindenféle közösségi finanszírozást vagy hosszadalmas előrendelést, és az új Pocket S Mini kézikonzol már most elérhető, raktárról rendelhető...

MA 11:55

A bitcoin újra zuhan – elfogytak a vevők?

💸 A bitcoin árfolyama szombaton közel 10 százalékot esett, 75 700 dollárig, azaz körülbelül 27,2 millió forintig süllyedt, ezzel április óta legalacsonyabb szintjére került...

MA 11:19

Az olcsó lézerhegesztőből született fém 3D-nyomtató: igazi csoda

Egyre megfizethetőbb, nagy teljesítményű lézerek teszik lehetővé, hogy a barkácsolók és feltalálók is kísérletezhessenek szokatlan alkalmazásokkal...

MA 11:01

Az OpenAI reklámokat hoz a ChatGPT-be – bízhatsz még benne?

🤔 Az OpenAI elkezdte bevezetni a hirdetéseket a ChatGPT-ben, első körben az ingyenes és a 3 000 forintos (8 USD-os) Go-csomagokban, elsősorban Androidon...

MA 10:57

Az ether beszakadása milliárdokat égetett el a kriptopiacon

💸 Egyetlen kereskedő pillanatok alatt vesztett el több mint 81 milliárd forintot (220 millió USD), miután az ether ára 17%-ot zuhant rövid idő alatt – ez okozta az elmúlt 24 óra legnagyobb kriptopiaci likvidálását...

MA 10:50

A ShinyHunters legújabb trükkje: támadás a vállalati felhő ellen

🔒 A részletek ismeretében más fényt kap a történet: az utóbbi időszakban az MI által is támogatott ShinyHunters nevű zsarolócsapat új szintre emelte a vállalati felhőalapú adatok elleni támadások módszereit...

MA 10:41

Az aranyfiú meginog – Tovább száguld-e Saylor a bitcoinvonaton?

🚇 Michael Saylor és cége, a MicroStrategy jelenleg kénytelen szembenézni azzal, hogy a bitcoinállományuk most kevesebbet ér, mint amennyiért megvették...

MA 10:33

A Waymo kasszájába ömlik 5800 milliárd forint az önvezető taxikra

🚗 A Waymo, az Alphabet önvezető járműveken dolgozó leányvállalata hatalmas, 16 milliárd dolláros (kb...

MA 10:26

Az AirTaget is verő Bluetooth-követők Androidra

Az Apple a második generációs AirTaggel ismét nagyot akar dobni: továbbfejlesztett hatótáv, hangosabb jelzőhang, több biztonsági funkció, valamint az új U1 chip, amivel a pontosságot is növelték...

MA 10:17

A mesterséges intelligencia már elárasztotta az amerikai munkahelyeket

Az elmúlt években látványosan elterjedt a mesterséges intelligencia használata az amerikai munkahelyeken...

MA 10:01

A grafén tényleg ott volt az Edison-izzóban?

💡 Thomas Edison nevét leginkább találmányai miatt ismeri mindenki, még akkor is, ha ezek közül néhányat nem kizárólag ő talált fel...

MA 10:00

Az Apple-1 prototípus: a szikra, ami mindent beindított

⚡ Az 1976-os év egyik igazi informatikatörténeti relikviája került elő – az Apple-1 egyik legkorábbi, üvegszálas prototípus-alaplapja, a Celebration Board...

MA 09:51

Az elképesztően apró Viltrox objektív: stílus, játékosság és pengeéles képek

📷 A Viltrox AF 28mm f/4.5 objektív elsőre szinte hihetetlenül kicsinek tűnik; 15 évnyi kamera- és objektívtesztelés alatt ilyen apró, autofókuszos optikát még nem tartottam a kezemben...

MA 09:41

A brutális amerikai tél padlóra küldte a bitcoinbányászokat

❄ A mostani extrém téli viharok igazi pokollá tették a bitcoin-bányászok életét az Egyesült Államokban...

MA 09:33

Az Univerzum ritkább a vártnál – újra gondban a kozmológusok

💫 A csillagászok bemutatták minden idők legnagyobb kozmikus térképét, amelyből végleg kiderült: az Univerzum anyaga kevésbé tömörödött össze, mint ahogyan a jelenlegi kozmológiai elmélet várná...

MA 09:25

Már az amerikai kormány asztalán a WhatsApp adatvédelmi panasz

Az Egyesült Államokban újabb vádak merültek fel a WhatsApp üzenetek titkosságával kapcsolatban: egy 2024-es bejelentés szerint a Meta alkalmazottai hozzáférhettek olyan tartalmakhoz is, amelyek elvileg titkosítottak és hozzáférhetetlenek lennének...

MA 09:19

A sportórák királya, az Enduro 3 – most olcsóbban?

🏆 A Garmin Enduro 3 új szintre emeli az ultratartós sportórák világát, kompromisszumok nélkül tálalva a már megszokott, felsőkategóriás Garmin-szolgáltatásokat – és ráadásul olcsóbb lett, mint elődje...

MA 09:09

Az NVIDIA milliárdokat pumpálna az OpenAI-ba

💰 Az NVIDIA továbbra is hatalmas összeget szán az OpenAI legújabb tőkebevonására – jelentette ki Jensen Huang, a vezérigazgató...