2025. 09. 04., 07:56

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni
Az MI-fejlesztések hihetetlen sebességgel változtatják meg azt, ahogyan képeket feldolgozunk, válogatunk vagy szerkesztünk. Néhány éve még elképzelhetetlen lett volna, hogy valós időben, különleges hardver és bonyolult telepítés nélkül eltávolíthatjuk a háttért a fotókról. Ma már akár az utolsó pizsamás szelfiden is szinte varázsütésre tűnik el a zavaró háttér – mindezt egyetlen MI-modell segítségével.

Mi is az az MI-alapú képszegmentáció?

Az MI-alapú képszegmentáció lényege, hogy a kép minden egyes pixeléről eldönti, melyik kategóriába tartozik: például előtér (ami minket érdekel), vagy háttér (amit ki akarunk takarni, átszínezni, eltüntetni). Ez eltér a hagyományos objektumfelismeréstől, amely csak egy körülhatároló keretet rajzol például egy arc vagy kutya köré, de nem mondja meg, pontosan melyik pixel tartozik az adott objektumhoz.

A kiemelten fontos képrészlet – a szaknyelvben ezt hívják szaliencia detektálásnak – egy bináris maszkon keresztül jelenik meg: ahol a kép igazán lényeges (például a főszereplő), ott magas értéket (255), a háttérben alacsonyat (0) kapnak a pixelek. Nem hagyható figyelmen kívül, hogy néhány alkalmazás összetettebb – lehet többféle előtér-kategória is, például egy kutya vagy egy szék –, ilyen az úgynevezett többosztályos maszkolás.

A mindennapi életben ez lehetővé teszi, hogy egy webáruház egyszerű, fehér háttérre illessze a termékeket, vagy hogy a felhasználók kreatívan kivághassák magukat egy mémhez.

Kiemelkedő modellek a háttéreltávolításban

Négy, jelenleg csúcskategóriás modellt teszteltek:

– U2-Net: Több mint 21 ezer képet tartalmazó adathalmazon tanult, több szintű képelemzést végez.
– IS-Net: Az U2-Net továbbfejlesztett változata, kétlépcsős feldolgozással: előbb durva maszkolás, majd a határvonalak finomítása.
– BiRefNet: Kétirányú, többszörös precíziós áttekintéssel ellenőrzi magát, hogy a részletek és az egész kép összhangban legyenek.
– SAM (Segment Anything Model): A Meta által fejlesztett, általános célú modell, amely akár több kategóriát is képes leválasztani egy képről.

Az U2-Net és az IS-Net hasonló metódussal, de eltérő megközelítéssel dolgozik. A BiRefNet először a fontos régiókat körvonalazza, majd egy második körben az apró részleteket is kidolgozza, végül ellenőrzi, hogy a részletek illeszkednek-e az egész képhez. A SAM modelltől eltérően, amely más típusú felhasználásra erősebb, mivel működéséhez némi előzetes instrukció szükséges.

Mennyire pontosak ezek a modellek?

A pontosságot elismert mutatókkal mérik:

– Intersection over Union (IoU): Megnézi, mekkora az átfedés a becsült és a valós előtér pixelek között. 1 a tökéletes egyezés, 0 a teljes eltérés.
– Dice-köeficiens: Hasonló, de valamivel megengedőbb az IoU-nál, inkább az átfedést jutalmazza.
– Pixelpontosság: A helyesen azonosított pixelek aránya a teljes képhez viszonyítva – viszont nagy háttér esetén elfedheti a hibákat.

Ezért leginkább az IoU-t és a Dice-köeficienst vették alapul, mert a pixelpontosság félrevezető lehet: akár egy csak a háttérre koncentráló modell is kiugró pontszámot érhet el ezen a mutatón, még ha az előtér felismerése hiányos is.


Gyorsaság és pontosság kéz a kézben?

A méréshez kétféle GPU-t használtak: egy 23 GB-osat (átlagos fogyasztói hardver), illetve egy 94 GB-osat (nagy MI-műveletekhez). A kisebb GPU-n a könnyű modellek bizonyultak a leggyorsabbnak: az U2-Net (176 MB) és az IS-Net (179 MB) rendre 307 és 351 milliszekundumos átlagos feldolgozási időt értek el. A nagyobb, bonyolultabb BiRefNet (973 MB) csak 821 milliszekundum alatt végzett, de a nagyobb GPU-n már utolérte a többi modellt.

Fontos, hogy a tesztekhez két adathalmazt használtak: egy “Humans” (Emberek, 7000 kép) és egy vegyes, komplexebb (DIS5K) készletet. A modellek pontosság és sebesség terén is jobban teljesítettek az egyszerűbb, embereket ábrázoló képekkel. A bonyolultabb, zsúfolt képeken (DIS5K) gyakoribbak voltak a hibák, és a feldolgozás is lassabb lett.

A specializált modellek kissé pontosabbak, de a mindennapi gyakorlatban egy univerzális, gyors modell előnyösebb. A SAM modell viszont automatikus, “prompt nélküli” feladatoknál túl lassúnak és kevésbé pontosnak bizonyult.

A BiRefNet minden változatával az élmezőnyhöz tartozott, átlagosan 0,87-es IoU és 0,92-es Dice-köeficiens értéket ért el, míg a fókuszált U2-Net az “emberek” készleten kiemelkedő (IoU 0,89; Dice 0,94), viszont a vegyes képeken gyenge (IoU 0,39; Dice 0,52) eredményt produkált.

Tipikus hibák: mi okoz nehézséget a gyakorlatban?

A modellek gyakran az apró részletek felismerésében (például egy kerék küllői), vagy éppen a lényeg kiemelésében hibáznak. Előfordult, hogy az U2-Net vagy az IS-Net a póló logóját kiemelte, de magát a pólót már nem. A BiRefNet viszont minden esetben jól felismerte az objektum egészét, mivel folyamatosan összeveti a globális és lokális információkat.

Így használható az automata háttéreltávolítás

A Cloudflare Images API már támogatja a képek automatikus háttéréltávolítását, akár tárhelyen, akár máshol tárolt fotókról legyen szó. A segment paraméterrel nemcsak az előtér emelhető ki: a háttér átlátszóvá is tehető, vagy kitölthető fehérrel. Egy adott URL-en keresztül például lekérhető egy arcra fókuszált, háttér nélküli kép, ahol a transzparens területeket fehér (#FFFFFF) szín váltja fel; mindez nagyjából 1100–1150 forintos MI-munka költségével.

Az Images API akár programozott munkafolyamatokba is integrálható: például egy egyszerű képszerkesztőben különböző képeket rétegezhetünk egymásra, a kivágott elemeket pedig használhatjuk mémekhez, matricákhoz.

A háttéréltávolítás funkció újabb lépést jelent az interaktív, kreatív MI-eszközök fejlesztésében, és minden jel arra mutat, hogy a jövőben még kifinomultabb, gyorsabb és pontosabb megoldások várhatóak – egyre egyszerűbb használattal.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted jó ötlet, ha az MI automatikusan eldönti, mi a lényeges egy képen?
  • Te bízol abban, hogy mindig helyesen működik egy ilyen háttéreltávolító?
  • Ha hibásan maszkírozna le egy képet, te javítanád kézzel vagy rábíznád újra az MI-re?


Legfrissebb posztok

MA 18:03

A VPN-árak piszkos titkai: ne dőlj be a trükköknek!

A VPN-előfizetések világa elsőre káprázatosnak tűnhet, elképesztő, akár 80%-os kedvezményekkel csalogatva az érdeklődőket...

MA 17:59

Az MI forradalmasítja a Photoshopot: 5 kötelező eszköz

Érdemes megérteni, hogy a Photoshop már nemcsak a profik titkos fegyvere: az MI-eszközök jelentősen leegyszerűsítik a képszerkesztést, és olyan lehetőségeket nyitnak meg, amelyek eddig csak hosszadalmas kézi munkával voltak elérhetők...

MA 17:39

Az óriás Google bekebelezte a felhőbiztonság új sztárját, a Wizet

🚀 Hatalmas dobás: a Google rekordösszegért, 11,8 billió forintért (32 milliárd dollárért) felvásárolta az izraeli Wiz nevű, villámgyorsan növekvő felhőbiztonsági vállalkozást...

MA 17:20

A Lucid Gravity végre utoléri azt, amit ma már minden autó tud

🚗 Kissé ciki volt, de most helyrehozták: a Lucid Motors csütörtöktől végre kiad egy frissítést a Gravity SUV-hoz Észak-Amerikában, aminek köszönhetően már működik benne az Apple CarPlay és az Android Auto is...

MA 16:58

A Kilauea újra tombol: Hawaii forróbb, mint valaha

🔥 Ó, édes Nagy-sziget (Big Island), te sosem spórolsz a drámával! Most épp a Kilauea vulkán eresztett el minden poklot: kilenc órán át nagyjából 4 millió köbméter (mintegy 16 millió köbyard) lávát lőtt ki, akár 400 méter magasra (1300 láb) – na tessék, ennyit arról, hogy csak földrengésekkel lehet villantani...

MA 16:22

Itt az Intel Core Ultra 250K és 270K Plus: végre igazi gyorsulás?

⚡ Idén az Intel Arrow Lake processzorai kapják a főszerepet az asztali gépek piacán, mivel az új Panther Lake csak hordozható gépekbe kerül...

MA 14:01

Az új Meta-trükkökkel így véded meg magad Facebookon, Messengeren, WhatsAppon

Az élet egyre digitálisabb, de a csalók is ezzel tartanak – szerencsére a Meta most felrázta magát, és új funkciókkal száll szembe a sumákolókkal...

MA 13:58

A TSA leállt: óriási sorok és káosz a reptereken

🚡 Aki mostanában repülni készül az Egyesült Államokban, annak komoly várakozási időkkel kell számolnia a reptereken, mert részlegesen leállt a kormányzati működés...

MA 13:40

Az Amazon robotaxijai ellepik Las Vegast: szövetségben az Uberrel

Tipikus eset, amikor két óriás összefog, hogy átrajzolják a városi közlekedés jövőjét: az Amazon tulajdonában álló Zoox és az Uber többéves megállapodást kötött, amelynek köszönhetően idén nyáron Las Vegasban, 2025-ben pedig Los Angelesben robotaxik lepik el az utakat...

MA 13:20

Az Északi-tenger mélyén egy ősi aszteroida szökőárt szabadított el

🌊 Az Északi-tenger feneke alatt, 700 méter mélységben, Yorkshire partjaitól mintegy 130 km-re egy rejtett, három kilométer széles kráter található, amelynek eredete több mint húsz éve komoly tudományos vitákat váltott ki...

MA 11:59

Az MI-hangok egyszerre keltenek gyanút és ámulatot

Egy lényeges szempont, hogy az emberek bizalmatlanokká válnak az MI-hangokkal szemben abban a pillanatban, amikor felismerik, hogy nem egy valódi ember beszél...

MA 11:40

Az első kínai holdraszállás célpontja végre eldőlt?

A nemzetközi űrverseny egyre izgalmasabbá válik, hiszen Kína és az Egyesült Államok versengve készülnek arra, hogy először embereket juttassanak vissza a Holdra...

MA 10:55

A YouTube új reklámözöne a tévén: ezt ki bírja?

Na most komolyan, a YouTube a tévéken annyira rákapcsolt az idegölő reklámokra, hogy már tényleg csak a popcorn hiányzik a szenvedés mellé...

MA 10:28

A Starlinknek álcázva támad Androidon az új BeatBanker

Érdemes megvizsgálni, hogy egyre kifinomultabb módszerekkel támadják az okostelefonokat: most egy olyan androidos kártevő tűnt fel, amely Starlink-alkalmazásnak álcázza magát, miközben valójában a BeatBanker nevű csaló program rejtőzik mögötte...

MA 09:55

Az Amazon egészségügyi mesterséges intelligenciája mostantól bárkinek elérhető

Az Amazon bővíti egészségügyi MI-asszisztense, a Health AI elérhetőségét: mostantól nemcsak a One Medical alkalmazásban, hanem közvetlenül az Amazon weboldalán és alkalmazásában is hozzáférhető...

MA 09:37

Az MI forradalmasítja a Ford flottáinak irányítását

🚗 A Ford új lendületet ad a céges járműparkok irányításának: a Ford Pro AI névre hallgató, mesterséges intelligenciát használó szolgáltatás mostantól a Ford Pro telematikai szoftverébe épül be...

MA 09:28

Az első gyerekeknek szánt E. coli-vakcina áttörést hoz

💉 Jellemző példa erre, hogy a világ egyik legveszélyesebb gyermekkori bélfertőzése ellen most először született hatékony védelem: a skandináv fejlesztésű ETVAX vakcina áttörő eredményeket mutat a halálos bélbaktérium, az enterotoxigén E...

MA 09:19

A Google Fotók MI-funkciói végre egy kattintással lekapcsolhatók

📷 Az utóbbi években a Google minden termékébe minél több mesterséges intelligenciát (MI) igyekezett beépíteni, azonban a felhasználók nem mindig örülnek ennek...

MA 09:10

A Galaxy S26 Ultra letarolja a világpiacot

🚀 Jó példa erre, hogy a Samsung Galaxy S26 széria rekordszámú előrendelés után került a boltok polcaira...

MA 09:01

Az OpenAI pórul járhat: a Gracenote is perel, nem csak szerzői jogvita

Most őszintén, észrevetted már, hogy manapság mindenki perel mindenkit, ha AI-ról van szó?..

MA 08:55

Itt a Google Gemini: végre itthon is a Chrome-ban

🚀 Oké, szóval megérkezett a Chrome-ba épített Gemini chatbot Kanadába, Indiába és Új-Zélandra, ráadásul már több mint ötven nyelven lehet vele csevegni – köztük franciául, gujaratiul, hindiül, spanyolul és még sok más nyelven –, csakhogy a magyaroknak még várniuk kell egy kicsit...

MA 08:48

Az új MacBook Neo: olcsóbb lett, még mindig menő

A MacBook Neo az Apple kínálatának legelérhetőbb laptopjaként lépett piacra, mindössze 600 dolláros (kb...

MA 08:38

Elindult Európa első mikrohálózatos adatközpontja: új korszak az MI-ben

💻 Dublin közvetlen közelében, Írország szívében indul el Európa első olyan adatközpontja, amely teljesen független, úgynevezett szigetüzemű mikrohálóra támaszkodik az energiaellátásban...

MA 08:28

A Bitcoin az egekben, az olaj a padlón – mi következik?

A kriptopiac megélénkült, miután a Bitcoin ára 70 000 dollár (kb...

MA 08:19

A kiöregedett NASA-műhold napokon belül a Földre zuhan

Felmerül a kérdés, mennyire veszélyes, ha egy évtizedekig szolgáló NASA-műhold ellenőrizetlenül zuhan vissza...

MA 08:02

Az igazságügyi szakértők új csodafegyvere: MI és a lárvák

A bomló holttesteken nyüzsgő lárvák látványa nem túl gyomorkímélő, de a helyszínelők számára ezek az apró élőlények kulcsfontosságú bizonyítékok lehetnek...

MA 07:46

Az X Money felkavarja a fizetési piacot, száguld a Dogecoin

💵 Elon Musk bejelentette, hogy áprilisban indul az X Money, az X (korábban Twitter néven ismert) új fizetési szolgáltatása...

MA 07:37

Az Amazon letiltja a Perplexity MI‑vásárlóbotjait

Már tavaly novemberben is betelt a pohár: az Amazon nekiment a Perplexity nevű MI‑startupnak, és megtiltotta, hogy a Comet nevű MI‑böngészője engedély nélkül a felhasználók helyett vásároljon a webáruházukban...

MA 07:28

Az új Windows 10-frissítés megérkezett: fontos biztonsági javításokkal

🛠 A Microsoft kiadta a Windows 10 KB5078885 kumulatív biztonsági frissítést, amely számos fontos sebezhetőséget orvosol, köztük két aktívan kihasznált nulladik napi sérülékenységet, valamint egy olyan problémát, amely megakadályozta egyes eszközök leállítását vagy hibernálását...