2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 09:51

Az elképesztően apró Viltrox objektív: stílus, játékosság és pengeéles képek

📷 A Viltrox AF 28mm f/4.5 objektív elsőre szinte hihetetlenül kicsinek tűnik; 15 évnyi kamera- és objektívtesztelés alatt ilyen apró, autofókuszos optikát még nem tartottam a kezemben...

MA 09:41

A brutális amerikai tél padlóra küldte a bitcoinbányászokat

❄ A mostani extrém téli viharok igazi pokollá tették a bitcoin-bányászok életét az Egyesült Államokban...

MA 09:33

Az Univerzum ritkább a vártnál – újra gondban a kozmológusok

💫 A csillagászok bemutatták minden idők legnagyobb kozmikus térképét, amelyből végleg kiderült: az Univerzum anyaga kevésbé tömörödött össze, mint ahogyan a jelenlegi kozmológiai elmélet várná...

MA 09:25

Már az amerikai kormány asztalán a WhatsApp adatvédelmi panasz

Az Egyesült Államokban újabb vádak merültek fel a WhatsApp üzenetek titkosságával kapcsolatban: egy 2024-es bejelentés szerint a Meta alkalmazottai hozzáférhettek olyan tartalmakhoz is, amelyek elvileg titkosítottak és hozzáférhetetlenek lennének...

MA 09:19

A sportórák királya, az Enduro 3 – most olcsóbban?

🏆 A Garmin Enduro 3 új szintre emeli az ultratartós sportórák világát, kompromisszumok nélkül tálalva a már megszokott, felsőkategóriás Garmin-szolgáltatásokat – és ráadásul olcsóbb lett, mint elődje...

MA 09:09

Az NVIDIA milliárdokat pumpálna az OpenAI-ba

💰 Az NVIDIA továbbra is hatalmas összeget szán az OpenAI legújabb tőkebevonására – jelentette ki Jensen Huang, a vezérigazgató...

MA 09:01

Az MI költözik az űrbe? A SpaceX grandiózus tervei

Elon Musk vállalata, a SpaceX engedélyt kért az amerikai hatóságoktól, hogy akár 1 millió, napenergiával működtetett műholdat bocsásson fel, amelyek MI-adatközpontként szolgálnának az űrben...

MA 08:57

Az OnlyFans a vártnál olcsóbban kerülhet amerikai kézbe

💰 Az OnlyFans ismét eladásra készül, ezúttal egy San Franciscó-i befektetési cég, az Architect Capital lehet a vevő...

MA 08:42

Egy jó kávé hatásosabb lehet, mint a mikroadagolt antidepresszáns

Jellemző példa erre, hogy az elmúlt évtizedben a pszichedelikus szerek mikroadagolása – vagyis nagyon kis mennyiségben történő fogyasztása – egyre népszerűbbé vált a mentális egészség világában, különösen a Szilícium-völgyben...

MA 08:34

Az MI-hordák, a felhőemberek temetője és áttörés a rákgyógyításban

A héten a tudományban különleges felfedezések és vízválasztó eredmények is napvilágot láttak...

MA 08:17

Az olcsó lítiumion-akkuk időzített bombák?

💣 A Lumafield szakemberei több mint ezer 18650-es típusú lítiumion-akkumulátort vizsgáltak nagyfelbontású röntgentomográfiával...

MA 07:57

Az MI megtervezi az utat a Marsra: a NASA áttörése

🚀 A NASA történetében új korszak kezdődött: a Mars bolygót járó Perseverance rover útvonalát most először egy MI tervezte meg...

MA 07:49

Az amerikaiak soha nem éltek ilyen sokáig – mégis van ok panaszkodni

🗓 Az amerikaiak várható élettartama elérte minden idők csúcsát: egy 2024-ben született átlagos amerikai már 79 évig élhet...

MA 07:33

Az Nvidia és az OpenAI milliárdos ügylete: tényleg nem volt botrány?

💸 Az Nvidia vezérigazgatója, Jensen Huang határozottan cáfolta azokat a híreket, amelyek szerint megtorpant volna a 36 000 milliárd forintos OpenAI-befektetésük...

MA 07:25

Az új energiaapp végre visszavágja a rezsit

Selina Tobaccowala felismerte, mennyire nehéz eligazodni az otthoni energiafogyasztás útvesztőjében, amikor lánya Post-it cetlikkel próbálta ösztönözni a családot a takarékosságra...

MA 07:17

A SpaceX egymillió adatközpontot telepítene az űrbe – minden megváltozhat

A SpaceX azt tervezi, hogy egymillió, napenergiával működő adatközpontot juttat alacsony Föld körüli pályára...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 2/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     腕能App – 压力睡眠健康监测与冥想助手 (iPhone/iPad)Az 腕能App egy innovatív Apple Watch alkalmazás, amely átfogó egészség- és életmódfigyelést kínál modern adatvizualizációval...

MA 07:09

A Blue Origin hátat fordít az űrturizmusnak, a Holdra készül

Az űrugrásokra vágyóknak egyelőre várniuk kell, ugyanis a Blue Origin legalább két évre szünetelteti turisztikai repüléseit...

MA 07:01

Lehúzza a rolót az egyik legnépszerűbb MI-modell

Az OpenAI hamarosan végleg megszünteti a ChatGPT legkedveltebb változatát, a GPT-4o modellt, valamint több más változatot (köztük a GPT-5 Instant, GPT-5 Thinking, GPT-4...

MA 06:57

Az Nvidia DGX Spark: a mini PC, ha csak az MI számít

A várva várt Nvidia DGX Spark megérkezett, és igazi különlegességet kínál: egyliteres, körülbelül 150 × 150 × 50 mm-es méretben egyesíti a GB10 Superchipbe integrált ARM-alapú CPU-t és Blackwell GPU-t...

MA 06:49

Az Nvidia óriási pénzt önt az OpenAI-ba

💰 Az Nvidia vezérigazgatója, Jensen Huang cáfolta azokat a híreszteléseket, miszerint elégedetlen lenne az OpenAI-jal...

MA 06:41

A gyenge mágneses tér feje tetejére állítja a különös plazmát

💫 Különös, fénylő állapotban létező anyag, az úgynevezett porplazma hihetetlenül érzékeny a mágnesességre...

MA 06:35

Az új Garmin futóórák trónkövetelői: futók nagy tesztje 2026-ban

A Garmin neve egyet jelent a futóórákkal – nem véletlenül. Ezeket az órákat elsősorban futók számára tervezik, bár található köztük modellek hegymászóknak, búvároknak, sőt, sofőröknek is...

MA 06:27

Az emberi lelemény diadala: kőóriásoktól a playbackelő robotig

🧠 Az év első hónapjában is hemzsegtek az izgalmas tudományos felfedezések, amelyek közül több majdnem elsikkadt a hírdömpingben...

MA 06:18

Az élettartam felét örököljük – meghökkentő új kutatás

A hosszú élet titka régóta izgatja az embereket, de most egy friss kutatás jelentősen új fénybe helyezi a genetika szerepét...

MA 06:06

Történelmi események a mai napon (Február 1.)

Ezen a napon a történelemben drámai fordulatok, mérföldkövek és tragédiák váltották egymást...

MA 06:02

A James Webb leleplezte az örökifjú vámpírcsillagok titkát

A világegyetem születése óta létező, „örökifjú” csillagokat, a kék stragglereket hetven éve nem sikerült megérteni...

szombat 20:55

Az új bitcoinpánik: zuhanás és rettegés söpör végig a piacokon

Az elmúlt napokban a bitcoin árfolyama 38 millió forint (84 200 USD) alá esett, ami újabb mélypontot jelent 2024 novembere óta...

szombat 20:37

Az ország bajban: 5000 szerelőt vadászik a Ford, milliós bérrel

🚗 A Ford már több mint 5 000 autószerelői állást kínál, miközben akár évi 43 millió forintot is kereshet az, aki elvállalja a munkát – mégsem jelentkezik elég ember...