2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 18:01

Az igazi hobbitokkal egy ősi aszály végzett?

🧠 Fontos kérdés, hogy miért tűntek el a kis termetű, úgynevezett hobbitok, vagyis a Homo floresiensis az indonéziai Flores szigetéről...

MA 17:58

A mesterséges intelligencia forradalmasítja a JioHotstar-keresést Indiában

India egyik legnagyobb médiavállalata, a Reliance, együttműködik az OpenAI-jal, hogy MI-alapú, beszélgetős keresést vezessen be a JioHotstar streamingszolgáltatásában...

MA 17:39

Az Elder Scrolls 6 visszatér a régi, hamisítatlan Bethesda-hangulathoz

🏰 Érdemes megnézni, milyen irányt vesz a legendás Elder Scrolls-sorozat következő része, hiszen Todd Howard, a Bethesda vezetője a vártnál részletesebben beszélt a The Elder Scrolls 6 fejlesztéséről...

MA 17:20

Az MI-nemzedék: Kik nyernek azon, hogy rettegsz az elbocsátástól?

💡 Az utóbbi időben egyre sűrűbben hallani, hogy az MI miatt hamarosan eltűnnek a munkahelyek, és hatalmas átrendeződés vár a munkaerőpiacra...

MA 16:58

A kriptopiac padlón, a Bitcoin is vérzik

📈 Hadd ordítsam már bele a levegőbe, hogy ma teljes a letargia a kriptopiacon!..

MA 16:39

A Bitdeer nagyot bukott – hűl a részvényesek kedve

💸 Nagyon nem indult jól a nap a Bitdeernek: a szingapúri bitcoin-bányász és AI-adatközpont-óriás közel 17%-ot zuhant, miután bejelentette, hogy 110 milliárd forint (kb...

MA 16:20

Az egérapák titka: tényleg egy gén irányítja a gondoskodást?

Érdemes megérteni, hogy az emlősöknél ritkaságnak számít az apai gondoskodás: mindössze a hímek 3–5 százaléka neveli aktívan az utódait...

MA 14:01

A Honeywell kamerabotránya felkavarja Kínát?

📸 Néhány Honeywell CCTV kamera egyszerűen ajtót nyit bárkinek, aki szeretné átnézni a felvételeket, vagy akár átvenni az irányítást a fiókok fölött...

MA 13:59

Az MI-hullám: munka és pénz, vagy mindent elsöpör a káosz?

Az MI térnyerése nagyban átalakíthatja a munka világát, de nem minden forgatókönyv sötét...

MA 13:39

Az MI véget vethet a ritkaföldfémek korszakának az e-autókban

🚗 A New Hampshire-i Egyetem kutatói olyan MI-alapú adatbázist hoztak létre, amely drámai módon felgyorsítja az új mágneses anyagok keresését...

MA 13:21

Az óriás fák halála fenyegeti a perui Amazonas szénraktárait

🌲 A perui Amazonas őserdeiben találhatók a kontinens legnagyobb fái, amelyek messze több szenet tárolnak, mint kisebb társaik...

MA 12:04

Az MI már mindenkinek jár – a céges rutin dönt

A vállalatok világa látszólag egyszerű: mindenki ugyanazokat az MI-modelleket használhatja, ugyanazokat az eszközöket és platformokat éri el...

MA 11:59

Az e‑mail‑szerverek reneszánsza: újra a hackerek célkeresztjében

📧 A számítógépes bűnözők elképesztő gyorsasággal kezdik kihasználni a SmarterMail rendszer legújabb sebezhetőségeit...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 06:05

Történelmi események a mai napon (Február 19.)

Share on Social Media x facebookwhatsapptelegram

szerda 17:37

Az áttörő CRISPR-technika megállíthatja és visszafordíthatja az antibiotikum-rezisztenciát

A globális egészségügyet egyre súlyosabb veszély fenyegeti: az antibiotikumoknak ellenálló baktériumok miatt 2050-re évente akár 10 millió halálesetet is jósolnak...

szerda 17:20

Az AI-chipháború elszabadult: a Meta halmozza az Nvidia-GPU-kat

Na most kapaszkodj: a Meta hosszú távú szerződést kötött az Nvidiával, és évekig tonnaszámra vásárolja az Nvidia vadiúj Grace és Vera CPU-it, meg a Blackwell- és Rubin GPU-it a saját adatközpontjaihoz...

szerda 17:03

Az MI sosem gondolkodik igazán – veszélyes önámításban élünk?

🧐 Amikor valaki orvoshoz fordul, magától értetődőnek veszi, hogy a szakember már találkozott valódi testtel, tapasztalatokat szerzett, vizsgált szerveket, megkülönböztette a különböző fájdalomtípusokat...

szerda 16:55

Az olimpiai síalpinisták sikertitka: a VO2 max mindent visz

Nemcsak a profik számára fontos az, amit a 2026-os téli olimpián debütáló síalpinisták teste tud: a kiemelkedő állóképességi szint, amelyet egy mutató, a VO2 max mér...

szerda 16:38

Az okos otthonok áttörést hozhatnak a demenciagondozásban

Fontos kérdés, hogy az egyre fejlettebb digitális technológiák hogyan javíthatják az idősebbek életminőségét, különösen azokét, akik Alzheimer-kórral vagy más demenciával élnek...

szerda 16:19

Az Androidból száműzik az OpenVPN-t: megéri az új irány?

A Proton VPN androidos alkalmazása jelentősen átalakult: frissítés után a felhasználók gyorsabb, átláthatóbb felületet kapnak, ám az ikonikusnak számító OpenVPN-protokoll már nem elérhető...

szerda 16:02

Az ingatlanpiac forradalma: kezdődik a kriptóval fedezett hitelek kora

Az amerikai Milo óriási eredményt ért el: több mint 100 millió dollár (kb...

szerda 15:55

Az Anthropic új MI-je már a saját pusztulásától retteg

Az Anthropic frissítette Sonnet nevű MI-modelljét a 4.6-os verzióra, amely most jobban programoz, ügyesebben kezeli a számítógépes feladatokat, és fejlettebb következtetési, valamint tervezési képességekkel is rendelkezik...

szerda 15:37

Az Autopilot kivonul Kaliforniából, a Tesla lázasan takarít

Meglepetés, a Tesla már nem dobálózik az Autopilot névvel Kaliforniában, hogy elkerülje a csúnya 30 napos kitiltást...

szerda 15:19

Az ősi hányás, ami idősebb, mint a dinoszauruszok

🤢 Érdemes tudni, hogy egy németországi kövület nem mindennapi felfedezést rejt: egy 290 millió éves, megkövesedett hányásdarabkát – vagyis regurgitalitot – sikerült azonosítaniuk paleontológusoknak...

szerda 15:02

A humanoid robotok lélegzetelállító kungfu-showja Kínában

A 2026-os pekingi Tavaszünnepi Gálán különleges esemény zajlott: emberformájú robotok adtak elő teljesen autonóm harcművészeti műsort a holdújévi ünnepség keretében...

szerda 14:56

A mesterséges intelligencia félrevezette a beteget – így bukott le a Gemini

Egy nyugdíjas informatikus kísérleti céllal fordult a Google Geminihez: saját gyógyszerlistáját és egészségügyi adatait akarta rendszerezni, bízva abban, hogy a bot tárolja az ezekből összeállított orvosi profilt...

szerda 14:38

Az óriásláncok csatája: merre kormányozzák új vezérigazgatóik a Walmartot és a Targetet?

💲 Tipikus eset, amikor két óriási rivális egyszerre új vezetőhöz kerül, de teljesen eltérő pályán mozognak tovább...

szerda 14:18

A Bayer óriásalkuja: milliárdokat fizet a rákkeltő gyomirtóért

A Bayer megdöbbentő, 2600 milliárd forint (7,25 milliárd dollár) összegű egyezségre készül, hogy végre lezárja a Roundup nevű gyomirtó körül évek óta húzódó amerikai rákkártérítési pereket...