Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni
Az MI-fejlesztések hihetetlen sebességgel változtatják meg azt, ahogyan képeket feldolgozunk, válogatunk vagy szerkesztünk. Néhány éve még elképzelhetetlen lett volna, hogy valós időben, különleges hardver és bonyolult telepítés nélkül eltávolíthatjuk a háttért a fotókról. Ma már akár az utolsó pizsamás szelfiden is szinte varázsütésre tűnik el a zavaró háttér – mindezt egyetlen MI-modell segítségével.

Mi is az az MI-alapú képszegmentáció?

Az MI-alapú képszegmentáció lényege, hogy a kép minden egyes pixeléről eldönti, melyik kategóriába tartozik: például előtér (ami minket érdekel), vagy háttér (amit ki akarunk takarni, átszínezni, eltüntetni). Ez eltér a hagyományos objektumfelismeréstől, amely csak egy körülhatároló keretet rajzol például egy arc vagy kutya köré, de nem mondja meg, pontosan melyik pixel tartozik az adott objektumhoz.

A kiemelten fontos képrészlet – a szaknyelvben ezt hívják szaliencia detektálásnak – egy bináris maszkon keresztül jelenik meg: ahol a kép igazán lényeges (például a főszereplő), ott magas értéket (255), a háttérben alacsonyat (0) kapnak a pixelek. Nem hagyható figyelmen kívül, hogy néhány alkalmazás összetettebb – lehet többféle előtér-kategória is, például egy kutya vagy egy szék –, ilyen az úgynevezett többosztályos maszkolás.

A mindennapi életben ez lehetővé teszi, hogy egy webáruház egyszerű, fehér háttérre illessze a termékeket, vagy hogy a felhasználók kreatívan kivághassák magukat egy mémhez.

Kiemelkedő modellek a háttéreltávolításban

Négy, jelenleg csúcskategóriás modellt teszteltek:

– U2-Net: Több mint 21 ezer képet tartalmazó adathalmazon tanult, több szintű képelemzést végez.
– IS-Net: Az U2-Net továbbfejlesztett változata, kétlépcsős feldolgozással: előbb durva maszkolás, majd a határvonalak finomítása.
– BiRefNet: Kétirányú, többszörös precíziós áttekintéssel ellenőrzi magát, hogy a részletek és az egész kép összhangban legyenek.
– SAM (Segment Anything Model): A Meta által fejlesztett, általános célú modell, amely akár több kategóriát is képes leválasztani egy képről.

Az U2-Net és az IS-Net hasonló metódussal, de eltérő megközelítéssel dolgozik. A BiRefNet először a fontos régiókat körvonalazza, majd egy második körben az apró részleteket is kidolgozza, végül ellenőrzi, hogy a részletek illeszkednek-e az egész képhez. A SAM modelltől eltérően, amely más típusú felhasználásra erősebb, mivel működéséhez némi előzetes instrukció szükséges.

Mennyire pontosak ezek a modellek?

A pontosságot elismert mutatókkal mérik:

– Intersection over Union (IoU): Megnézi, mekkora az átfedés a becsült és a valós előtér pixelek között. 1 a tökéletes egyezés, 0 a teljes eltérés.
– Dice-köeficiens: Hasonló, de valamivel megengedőbb az IoU-nál, inkább az átfedést jutalmazza.
– Pixelpontosság: A helyesen azonosított pixelek aránya a teljes képhez viszonyítva – viszont nagy háttér esetén elfedheti a hibákat.

Ezért leginkább az IoU-t és a Dice-köeficienst vették alapul, mert a pixelpontosság félrevezető lehet: akár egy csak a háttérre koncentráló modell is kiugró pontszámot érhet el ezen a mutatón, még ha az előtér felismerése hiányos is.


Gyorsaság és pontosság kéz a kézben?

A méréshez kétféle GPU-t használtak: egy 23 GB-osat (átlagos fogyasztói hardver), illetve egy 94 GB-osat (nagy MI-műveletekhez). A kisebb GPU-n a könnyű modellek bizonyultak a leggyorsabbnak: az U2-Net (176 MB) és az IS-Net (179 MB) rendre 307 és 351 milliszekundumos átlagos feldolgozási időt értek el. A nagyobb, bonyolultabb BiRefNet (973 MB) csak 821 milliszekundum alatt végzett, de a nagyobb GPU-n már utolérte a többi modellt.

Fontos, hogy a tesztekhez két adathalmazt használtak: egy “Humans” (Emberek, 7000 kép) és egy vegyes, komplexebb (DIS5K) készletet. A modellek pontosság és sebesség terén is jobban teljesítettek az egyszerűbb, embereket ábrázoló képekkel. A bonyolultabb, zsúfolt képeken (DIS5K) gyakoribbak voltak a hibák, és a feldolgozás is lassabb lett.

A specializált modellek kissé pontosabbak, de a mindennapi gyakorlatban egy univerzális, gyors modell előnyösebb. A SAM modell viszont automatikus, “prompt nélküli” feladatoknál túl lassúnak és kevésbé pontosnak bizonyult.

A BiRefNet minden változatával az élmezőnyhöz tartozott, átlagosan 0,87-es IoU és 0,92-es Dice-köeficiens értéket ért el, míg a fókuszált U2-Net az “emberek” készleten kiemelkedő (IoU 0,89; Dice 0,94), viszont a vegyes képeken gyenge (IoU 0,39; Dice 0,52) eredményt produkált.

Tipikus hibák: mi okoz nehézséget a gyakorlatban?

A modellek gyakran az apró részletek felismerésében (például egy kerék küllői), vagy éppen a lényeg kiemelésében hibáznak. Előfordult, hogy az U2-Net vagy az IS-Net a póló logóját kiemelte, de magát a pólót már nem. A BiRefNet viszont minden esetben jól felismerte az objektum egészét, mivel folyamatosan összeveti a globális és lokális információkat.

Így használható az automata háttéreltávolítás

A Cloudflare Images API már támogatja a képek automatikus háttéréltávolítását, akár tárhelyen, akár máshol tárolt fotókról legyen szó. A segment paraméterrel nemcsak az előtér emelhető ki: a háttér átlátszóvá is tehető, vagy kitölthető fehérrel. Egy adott URL-en keresztül például lekérhető egy arcra fókuszált, háttér nélküli kép, ahol a transzparens területeket fehér (#FFFFFF) szín váltja fel; mindez nagyjából 1100–1150 forintos MI-munka költségével.

Az Images API akár programozott munkafolyamatokba is integrálható: például egy egyszerű képszerkesztőben különböző képeket rétegezhetünk egymásra, a kivágott elemeket pedig használhatjuk mémekhez, matricákhoz.

A háttéréltávolítás funkció újabb lépést jelent az interaktív, kreatív MI-eszközök fejlesztésében, és minden jel arra mutat, hogy a jövőben még kifinomultabb, gyorsabb és pontosabb megoldások várhatóak – egyre egyszerűbb használattal.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted jó ötlet, ha az MI automatikusan eldönti, mi a lényeges egy képen?
  • Te bízol abban, hogy mindig helyesen működik egy ilyen háttéreltávolító?
  • Ha hibásan maszkírozna le egy képet, te javítanád kézzel vagy rábíznád újra az MI-re?



Legfrissebb posztok

Az iPad Air M3 most nevetségesen olcsó

MA 09:53

Az iPad Air M3 most nevetségesen olcsó

Az Apple legújabb, M3-as chipjével szerelt iPad Air most minden konfigurációban 54 ezer forinttal olcsóbb az Amazonon. Az akció a 11 colos és 13 colos modellekre is érvényes,...

Altman szerint tévúton járunk, az AGI-mítosz hamarosan szertefoszlik

MA 09:40

Altman szerint tévúton járunk, az AGI-mítosz hamarosan szertefoszlik

🤔 Sam Altman, az OpenAI vezérigazgatója szerint az általános mesterséges intelligencia (AGI), vagyis az emberi szintű MI kifejezés elveszítette a jelentőségét. Az elmúlt években az AGI volt az a...

Amerikát egyre gyakrabban sújtják pusztító hurrikánok

MA 09:27

Amerikát egyre gyakrabban sújtják pusztító hurrikánok

2005 augusztusában a Katrina trópusi vihar, mielőtt elérte volna Miami északi részét, csupán mérsékelt károkat okozott Floridában, 11 halálos áldozattal. Akkor még senki sem sejtette, hogy évtizedek legpusztítóbb...

Az ingatlanpiac új fordulatot vett – már nem a vevők kapkodnak

MA 09:14

Az ingatlanpiac új fordulatot vett – már nem a vevők kapkodnak

💭 Az amerikai ingatlanpiacon egyre érezhetőbb a változás: egy friss felmérés szerint a vevők pozíciója kezd megerősödni, miközben az eladók egyre sürgetőbbnek érzik az értékesítést. A kutatásban részt vevő...

APPok, Amik Ingyenesek MA, 9/4
APP

MA 09:12

APPok, Amik Ingyenesek MA, 9/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Find My Car – Car Parking (iPhone/iPad)A Find My Car egy praktikus okostelefonos alkalmazás, amely megkönnyíti,...

Az állati fehérje mégis megvédhet a ráktól?

MA 09:01

Az állati fehérje mégis megvédhet a ráktól?

🐮 Az állati eredetű fehérjék fogyasztása nem növeli a halálozás kockázatát, sőt, akár védelmet is nyújthat a daganatos betegségekből fakadó elhalálozással szemben – erre jutott egy új, 16 000...

Az adatlopás, amely 2,7 millió embert érint – DaVita-katasztrófa

MA 08:53

Az adatlopás, amely 2,7 millió embert érint – DaVita-katasztrófa

🔒 A DaVita, a világ egyik legnagyobb vesedialízis-szolgáltatója, több mint 2,7 millió ember személyes és egészségügyi adatának ellopását ismerte el. A vállalat világszerte 265 400 pácienst kezel 3 113...

Az égő óriás: Oregon legendás fája veszélyben

MA 08:40

Az égő óriás: Oregon legendás fája veszélyben

🌲 Oregon partvidékén lángokba borult a Doerner-fenyő (Doerner Fir), a régió – és egyben a világ – egyik legnagyobb Douglas-fenyője. Ez a hatalmas, legalább 450 éves fa 99,1 méter...

Az év brazil pénzügyi betörése: 46 milliárd forintot loptak volna el

MA 08:27

Az év brazil pénzügyi betörése: 46 milliárd forintot loptak volna el

🔒 A latin-amerikai fintech óriás, az Evertec frissen felvásárolt brazil leányvállalatát, a Sinqiát a közelmúltban súlyos kibertámadás érte. Az elkövetők a brazil központi bank azonnali utalási rendszerén (Pix) keresztül...