2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 11:20

A számok nem hazudnak: így szerepeltek a merevlemezek 2025-ben

Tizenhárom éve gyűjti a Backblaze a meghajtó-statisztikákat, és ennyi idő alatt bőven akadt mindenféle meglepetés: újdonságok, botrányos hibaarányok és kitartó, stabil teljesítmény...

MA 11:01

A DJI robotporszívók botrányos biztonsági hibája ezrek otthonaihoz engedhetett hozzáférést

Sammy Azdoufal, egy kíváncsi techrajongó mindössze annyit szeretett volna, hogy PlayStation 5-ös kontrollert használjon vadonatúj DJI Romo robotporszívójához...

MA 10:57

Az univerzum rendjét fenekestül felforgatja egy különös sziklás bolygó

Az eddigi tudományos álláspont szerint a legtöbb bolygórendszerben a kisebb, sziklás bolygók közelebb, míg a hatalmas gázóriások távolabb keringenek a csillagjuktól...

MA 10:49

A kamu álláshirdetéseket észak-koreai hekkerek és rejtett vírusok terjesztik

A legújabb észak-koreai fenyegetések hamis toborzókampányai JavaScript- és Python-fejlesztőket céloznak meg titkos kriptovaluta-projektekkel...

MA 10:42

Az Acer Veriton GN100: mini PC brutál MI-vel – megéri?

Az Acer legújabb asztali minigépével, a Veriton GN100-zal ismét reflektorfénybe került az MI-fejlesztésre szánt hardverek világa...

MA 10:33

A detroiti elektromosautó-álom szertefoszlott

Az amerikai autóipar három nagyágyúja, a General Motors, a Ford és a Stellantis együttesen 18 ezer milliárd forintos, azaz 50 milliárd dolláros veszteséget könyvelhetett el az elektromos autók lufijának kipukkanása miatt...

MA 10:24

Az MI a síron túlról is üzen helyetted

A Meta nemrég szabadalmat kapott egy olyan fejlesztésre, amely szerint egy nagy nyelvi modell a felhasználó halála után is képes lenne aktívan fenntartani annak online jelenlétét...

MA 10:18

Az MI lehet a zöld átállás titkos aduásza

Az MI-t sokan az energiapazarlás új szimbólumának tartják, főleg, ahogy az adatközpontok energiafogyasztása világszerte egyre csak nő...

MA 09:58

Az Amazon kutyás MI-kamerái beégtek – Ring-botrány a Super Bowl után

🐶 A Super Bowl alatt sugárzott Ring-reklám után az Amazon kénytelen volt visszavonni a tervezett együttműködést a Flock Safety nevű céggel, amely a rendőrség számára is elérhetővé tette volna az MI-vel támogatott, civil Ring kamerahálózatot...

MA 09:49

Az NAACP perre készül Musk MI-cége ellen a mississippi légszennyezésért

Elon Musk MI-vállalata, az xAI most a Mississippiben épülő adatközpontja miatt került nyomás alá, mivel a NAACP perrel fenyegeti a céget a légszennyezés miatt...

MA 09:41

Az MI-trükk ismét támad: veszélyben a Macek

⚠️ Több mint 10 000 macOS-felhasználót vertek át csalók, akik az MI, pontosabban a Claude LLM által generált tartalmakat és Google-hirdetéseket használnak adatlopó kártevők terjesztésére...

MA 09:35

Az MI-korszak titkos nyertese: a Wikipédia

Az elmúlt években a Wikipédia, az internet legismertebb enciklopédiája váratlan reneszánszot él meg — miközben sosem volt ekkora nyomás és kockázat alatt...

MA 09:25

Az Airbnb-n már az ügyfélszolgálat harmadát mesterséges intelligencia intézi

Az Airbnb észak-amerikai ügyfélszolgálati ügyeinek már körülbelül harmadát mesterséges intelligencia kezeli, és a vállalat hamarosan világszerte bevezeti ezt a megoldást...

MA 09:09

Az SCCM kritikus hibája komoly veszélybe sodorja a vállalati rendszereket

⚠ Az amerikai kiberbiztonsági hivatal (CISA) arra kötelezte a szövetségi ügynökségeket, hogy sürgősen foltozzák be a Microsoft Configuration Manager kritikus sebezhetőségét, amelyet 2024 októberében javítottak, de mostanra aktívan kihasználnak támadások során...

MA 09:02

A legújabb kínai MI-modellek letarolják a techvilágot

🔥 Kína legnagyobb technológiai vállalatai ismét megmutatták, hogy képesek lépést tartani az amerikai MI-fejlesztőkkel...

MA 08:57

A SpaceX tőzsdei csavarja felforgatja az űripart, nőhet Musk hatalma

A SpaceX az idén tervezett részvénykibocsátását egy kétosztályos részvénystruktúrával készíti elő, amellyel Elon Musk, a cég alapítója, könnyedén biztosíthatja magának a döntéshozatali hatalmat akkor is, ha ténylegesen kisebbségi tulajdonos marad...

MA 08:49

Az amerikai Wendy’s-ek sorra húzzák le a rolót

Az amerikai Wendy’s gyorsétteremlánc komoly leépítésre készül: 5–6 százalékkal csökkenti az Egyesült Államokban működő étteremszámot, vagyis idén 300–360 üzletet zárhat be...

MA 08:41

Az Android 17 béta újraindult – mi zajlik a Google-nél?

Pár nappal egy váratlan leállás után a Google pénteken ismét elérhetővé tette a legújabb Android 17 bétaverziót...

MA 08:33

Az agystimuláció tényleg önzetlenebbé tesz minket?

Nemcsak erkölcsi tanítás kérdése, mennyire vagy nagylelkű; tudósok friss kutatása szerint az agy különböző területeinek összhangja befolyásolhatja, mennyit vagy hajlandó megosztani másokkal — akár saját károdra is...

MA 08:26

A hepatitis B-oltás botránya: etikátlan amerikai segély Afrikában?

💉 A WHO határozottan elítélte azt az amerikai finanszírozású kutatást, amely újszülöttektől vonná meg a hepatitis B elleni védőoltást Bissau-Guineában...

MA 08:18

Az utolsó neandervölgyiek: Tényleg mi töröltük őket a Földről?

🧠 A neandervölgyiek eltűnése évtizedek óta izgatja a tudományos világot. Vajon mi, a modern emberek okoztuk legközelebbi rokonaink pusztulását, vagy már eleve kihalásra voltak ítélve?..

MA 08:02

Az omega–3 halolaj árthat, ha hiányzik egy kulcsenzim

Érdekes felvetés, hogy a halolaj-készítményeket, amelyeket gyakran szednek a rák megelőzésének reményében, valójában nem egyformán hatásosak mindenkinek...

MA 07:57

Az LVMH luxusmárkáit példátlan adatvédelmi bírsággal sújtották

Dél-Korea rekordösszegű, átszámítva több mint 9 milliárd forintos (25 millió USD) bírságot szabott ki a Louis Vuitton, a Christian Dior Couture és a Tiffany márkákra, miután nem biztosították ügyfeleik adatainak védelmét, és így hackerek több mint 5,5 millió vásárló adataihoz fértek hozzá...

MA 07:50

A Verizon bekeményít: nehezebb lesz feloldani a telefonokat

A nagy amerikai mobilszolgáltató, a Verizon újabb akadályt gördített azok elé, akik idő előtt szeretnék lezárni részletfizetési konstrukciójukat, majd függetleníteni telefonjukat...

MA 07:41

Az MI Santa Monicában leszámol a biciklisáv-blokkolókkal?

🚲 Santa Monica lesz az első amerikai város, ahol idén tavasszal MI-alapú rendszert vetnek be a parkolásfelügyeletben: áprilistól már hét hivatali autóban is kamerák vadásznak majd a biciklisávot jogtalanul elfoglaló autósokra...

MA 07:33

Az MI sebességrekordja: 9 másodperces kódolás Cerebras-chipeken

Az OpenAI bemutatta legújabb fejlesztését, a GPT-5.3-Codex-Spark modellt, amely minden eddiginél gyorsabban, másodpercenként 1 000 tokent képes feldolgozni a hatalmas Cerebras-chipeken...

MA 07:25

Az új Steam-funkció végre valódi súlyt ad a játékértékeléseknek

👍 A Steam legfrissebb béta frissítése révén a felhasználók automatikusan csatolhatják számítógépük hardveradatait a játéktesztjeikhez...

MA 07:18

Az új, zöld üstökös örökre búcsút int a Naprendszernek

🚀 A közelgő, városméretű „zöld üstökös” hamarosan örökre eltűnik a Naprendszerből. Az üstökös, hivatalos nevén C/2024 E1 (Wierzchos), látványosan fényesedik, ahogy február 17-én eléri Földhöz legközelebbi pontját...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/14

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...