2025. 09. 04., 07:56

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni
Az MI-fejlesztések hihetetlen sebességgel változtatják meg azt, ahogyan képeket feldolgozunk, válogatunk vagy szerkesztünk. Néhány éve még elképzelhetetlen lett volna, hogy valós időben, különleges hardver és bonyolult telepítés nélkül eltávolíthatjuk a háttért a fotókról. Ma már akár az utolsó pizsamás szelfiden is szinte varázsütésre tűnik el a zavaró háttér – mindezt egyetlen MI-modell segítségével.

Mi is az az MI-alapú képszegmentáció?

Az MI-alapú képszegmentáció lényege, hogy a kép minden egyes pixeléről eldönti, melyik kategóriába tartozik: például előtér (ami minket érdekel), vagy háttér (amit ki akarunk takarni, átszínezni, eltüntetni). Ez eltér a hagyományos objektumfelismeréstől, amely csak egy körülhatároló keretet rajzol például egy arc vagy kutya köré, de nem mondja meg, pontosan melyik pixel tartozik az adott objektumhoz.

A kiemelten fontos képrészlet – a szaknyelvben ezt hívják szaliencia detektálásnak – egy bináris maszkon keresztül jelenik meg: ahol a kép igazán lényeges (például a főszereplő), ott magas értéket (255), a háttérben alacsonyat (0) kapnak a pixelek. Nem hagyható figyelmen kívül, hogy néhány alkalmazás összetettebb – lehet többféle előtér-kategória is, például egy kutya vagy egy szék –, ilyen az úgynevezett többosztályos maszkolás.

A mindennapi életben ez lehetővé teszi, hogy egy webáruház egyszerű, fehér háttérre illessze a termékeket, vagy hogy a felhasználók kreatívan kivághassák magukat egy mémhez.

Kiemelkedő modellek a háttéreltávolításban

Négy, jelenleg csúcskategóriás modellt teszteltek:

– U2-Net: Több mint 21 ezer képet tartalmazó adathalmazon tanult, több szintű képelemzést végez.
– IS-Net: Az U2-Net továbbfejlesztett változata, kétlépcsős feldolgozással: előbb durva maszkolás, majd a határvonalak finomítása.
– BiRefNet: Kétirányú, többszörös precíziós áttekintéssel ellenőrzi magát, hogy a részletek és az egész kép összhangban legyenek.
– SAM (Segment Anything Model): A Meta által fejlesztett, általános célú modell, amely akár több kategóriát is képes leválasztani egy képről.

Az U2-Net és az IS-Net hasonló metódussal, de eltérő megközelítéssel dolgozik. A BiRefNet először a fontos régiókat körvonalazza, majd egy második körben az apró részleteket is kidolgozza, végül ellenőrzi, hogy a részletek illeszkednek-e az egész képhez. A SAM modelltől eltérően, amely más típusú felhasználásra erősebb, mivel működéséhez némi előzetes instrukció szükséges.

Mennyire pontosak ezek a modellek?

A pontosságot elismert mutatókkal mérik:

– Intersection over Union (IoU): Megnézi, mekkora az átfedés a becsült és a valós előtér pixelek között. 1 a tökéletes egyezés, 0 a teljes eltérés.
– Dice-köeficiens: Hasonló, de valamivel megengedőbb az IoU-nál, inkább az átfedést jutalmazza.
– Pixelpontosság: A helyesen azonosított pixelek aránya a teljes képhez viszonyítva – viszont nagy háttér esetén elfedheti a hibákat.

Ezért leginkább az IoU-t és a Dice-köeficienst vették alapul, mert a pixelpontosság félrevezető lehet: akár egy csak a háttérre koncentráló modell is kiugró pontszámot érhet el ezen a mutatón, még ha az előtér felismerése hiányos is.


Gyorsaság és pontosság kéz a kézben?

A méréshez kétféle GPU-t használtak: egy 23 GB-osat (átlagos fogyasztói hardver), illetve egy 94 GB-osat (nagy MI-műveletekhez). A kisebb GPU-n a könnyű modellek bizonyultak a leggyorsabbnak: az U2-Net (176 MB) és az IS-Net (179 MB) rendre 307 és 351 milliszekundumos átlagos feldolgozási időt értek el. A nagyobb, bonyolultabb BiRefNet (973 MB) csak 821 milliszekundum alatt végzett, de a nagyobb GPU-n már utolérte a többi modellt.

Fontos, hogy a tesztekhez két adathalmazt használtak: egy “Humans” (Emberek, 7000 kép) és egy vegyes, komplexebb (DIS5K) készletet. A modellek pontosság és sebesség terén is jobban teljesítettek az egyszerűbb, embereket ábrázoló képekkel. A bonyolultabb, zsúfolt képeken (DIS5K) gyakoribbak voltak a hibák, és a feldolgozás is lassabb lett.

A specializált modellek kissé pontosabbak, de a mindennapi gyakorlatban egy univerzális, gyors modell előnyösebb. A SAM modell viszont automatikus, “prompt nélküli” feladatoknál túl lassúnak és kevésbé pontosnak bizonyult.

A BiRefNet minden változatával az élmezőnyhöz tartozott, átlagosan 0,87-es IoU és 0,92-es Dice-köeficiens értéket ért el, míg a fókuszált U2-Net az “emberek” készleten kiemelkedő (IoU 0,89; Dice 0,94), viszont a vegyes képeken gyenge (IoU 0,39; Dice 0,52) eredményt produkált.

Tipikus hibák: mi okoz nehézséget a gyakorlatban?

A modellek gyakran az apró részletek felismerésében (például egy kerék küllői), vagy éppen a lényeg kiemelésében hibáznak. Előfordult, hogy az U2-Net vagy az IS-Net a póló logóját kiemelte, de magát a pólót már nem. A BiRefNet viszont minden esetben jól felismerte az objektum egészét, mivel folyamatosan összeveti a globális és lokális információkat.

Így használható az automata háttéreltávolítás

A Cloudflare Images API már támogatja a képek automatikus háttéréltávolítását, akár tárhelyen, akár máshol tárolt fotókról legyen szó. A segment paraméterrel nemcsak az előtér emelhető ki: a háttér átlátszóvá is tehető, vagy kitölthető fehérrel. Egy adott URL-en keresztül például lekérhető egy arcra fókuszált, háttér nélküli kép, ahol a transzparens területeket fehér (#FFFFFF) szín váltja fel; mindez nagyjából 1100–1150 forintos MI-munka költségével.

Az Images API akár programozott munkafolyamatokba is integrálható: például egy egyszerű képszerkesztőben különböző képeket rétegezhetünk egymásra, a kivágott elemeket pedig használhatjuk mémekhez, matricákhoz.

A háttéréltávolítás funkció újabb lépést jelent az interaktív, kreatív MI-eszközök fejlesztésében, és minden jel arra mutat, hogy a jövőben még kifinomultabb, gyorsabb és pontosabb megoldások várhatóak – egyre egyszerűbb használattal.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted jó ötlet, ha az MI automatikusan eldönti, mi a lényeges egy képen?
  • Te bízol abban, hogy mindig helyesen működik egy ilyen háttéreltávolító?
  • Ha hibásan maszkírozna le egy képet, te javítanád kézzel vagy rábíznád újra az MI-re?


Legfrissebb posztok

MA 15:38

A világ első robotarca, amely úgy mozgatja ajkát, mint egy ember

😃 Felmerül a kérdés, hogy vajon meg tudod-e különböztetni a robotot az embertől beszéd közben — lehet, hogy hamarosan már nem lesz ilyen egyszerű...

MA 15:19

Az MI feltárta a Hubble rejtélyeit: 1400 új objektum

Két európai csillagász, David O’Ryan és Pablo Gómez, az Európai Űrügynökség kutatói, közel 800 eddig ismeretlen asztrofizikai anomáliát bányásztak elő a Hubble-űrtávcső harmincöt éves adatgyűjteményéből...

MA 15:01

A japán óriás betörne az amerikai kriptobankok elit klubjába

A japán Nomura pénzügyi csoport digitális leányvállalata, a Laser Digital engedélyért folyamodott az Egyesült Államokban, hogy létrehozzon egy nemzeti trustbankot, amely intézményi ügyfeleknek nyújtana kriptovaluták kezelésével kapcsolatos szolgáltatásokat...

MA 14:55

Az első NVIDIA H200 MI-chipek végre megérkezhetnek Kínába

🚀 Kína hosszú huzavona után jóváhagyta az NVIDIA H200 MI-GPU-k első nagyobb szállítmányának importját, miután a kormány korábban elutasította azt...

MA 14:37

A WhatsApp szuperbiztonsági módja végre egy kattintással bekapcsolható

🔒 A WhatsApp mostantól egyetlen gombnyomással bekapcsolható szigorú adatvédelmi módot kínál, amellyel mindenki gyorsan fokozhatja a saját védelmét...

MA 14:19

Újabb leépítés: az Amazon 16 ezer embert bocsát el

🙁 Az Amazon újabb 16 000 munkavállalót bocsát el világszerte, hogy átalakítsa és egyszerűsítse működését...

MA 14:02

Az áttörés előtt áll Ázsiában a zöld repülőüzemanyag

🛫 Szingapúr Tuas ipari negyedében található a világ legnagyobb fenntartható repülőüzemanyag (SAF) finomítója, ahol használt étolajból és állati zsírból állítanak elő repülőgépeket hajtó üzemanyagot...

MA 13:55

Az ősi marsi tengerpart végre kiteregeti a titkait

A NASA Perseverance marsjárójának friss felfedezései gyökeresen megváltoztatják, mit gondolunk a Mars múltbeli lakhatóságáról...

MA 13:38

Az iskolai étkeztetés lehet a gyermekszegénység elleni áttörés

🍳 A 2026-os év rögtön az elején komoly kihívásokat hozott a globális éhezés kezelése terén...

MA 13:20

Az amerikai dollár zuhan: újra négyéves mélyponton

Az amerikai dollár 2022 februárja óta nem látott mélypontra zuhant, miután Donald Trump elnök ismét nyíltan elbagatellizálta a valuta gyengülése miatti aggodalmakat...

MA 13:01

A barlangi medve visszavág: véres véget ér az ősi vadászat

Egy 27 000 évvel ezelőtt élt tinédzser csontvázának vizsgálata ritka bepillantást enged az őskori mindennapok brutalitásába...

MA 12:56

A homárok MI-asszisztense: minden, amit a Moltbotról tudni kell

Az internet új kedvence nem más, mint egy digitális homár: a Moltbot, a személyi MI-asszisztens, amelynek fő attrakciója, hogy ténylegesen elvégzi helyettünk a feladatokat...

MA 12:37

Az SK Hynix beszáll az amerikai MI-lázba

🚀 Dél-koreai memóriagyártó óriás, az SK Hynix legalább 3 700 milliárd forintot fordít egy új, mesterséges intelligenciára specializálódó amerikai vállalat létrehozására...

MA 12:21

Az Android-frissítések dzsungele: így találsz ki a verziók útvesztőjéből

Az Android világában a frissítések sosem haladnak egyenes úton. Mindenki hallott már arról, hogy új funkciók jelentek meg, amelyeket a telefonján még nem talál, vagy éppen azt látja, hogy hónapokkal a hivatalos bejelentés előtt már valakik beszélnek róluk...

MA 12:02

Az élő gyöngysor réme: új pókparazita Brazíliában

Egy apró pók furcsa gyöngysorral a testén igazi tudományos szenzációvá vált a São Pauló-i Butantan Intézet Zoológiai Gyűjteményében...

MA 11:56

Az ökogazdaságban most a profit írja a szabályokat

Évtizedeken át az organikus gazdálkodás témája elsősorban a fenntarthatóságról, a környezeti egészségről és az állatjólétről szólt...

MA 11:37

Az MI-láz megduplázta az SK Hynix nyereségét

A dél-koreai SK Hynix történelmi rekordokat döntött 2025-ben: a vállalat éves árbevétele közel 50%-kal, üzemi nyeresége pedig több mint duplájára nőtt az előző évhez képest...

MA 11:19

A vadáfonya, a szupersztár: a szív és az agy őre

🍒 Különösen igaz ez akkor, ha valaki egészségesebb keringést, jobb anyagcserét vagy erősebb memóriát szeretne: egyre több tudományos bizonyíték utal arra, hogy a vadáfonya fogyasztása valódi csodafegyver lehet a szív, az emésztőrendszer és az agy védelmében...

MA 11:02

A Holdba csapódhat egy aszteroida – aranybánya vagy katasztrófa?

🌕 2032 végén egy 60 méter átmérőjű aszteroida, a 2024 YR4 nevű kisbolygó akár a Holdba is csapódhat...

MA 10:57

Az Adobe Photoshop MI-újításokkal hódítja meg a kreatívokat

Az Adobe Photoshop ma jelentős frissítéseket kapott, amelyek a Firefly generatív MI-technológiájára épülnek...

MA 10:49

Az automatizált SOC: Áldás vagy belépő a káoszba?

Egy átlagos nagyvállalati SOC (biztonsági műveleti központ) ma naponta legalább 10 000 riasztással szembesül...

MA 10:41

Az új MI-őrület: elvégzi helyetted a munkát a Moltbot?

Egyre többen próbálják ki a nyílt forráskódú Moltbotot, amely a legfrissebb MI-ügynökök közül az egyik, és tényleg képes dolgokat elvégezni helyetted...

MA 10:33

Újra szakad a Dogecoin – most jön csak a feketeleves?

Az utóbbi 24 órában a Dogecoin árfolyama kicsit, mindössze 0,6 százalékkal emelkedett, de továbbra is egy szűk sávban mozog, 0,122 dollár (kb...

MA 10:28

Az év legjobb edzéshez való fül- és fejhallgatók

Az elmúlt években rengeteg vezeték nélküli fül- és fejhallgatót teszteltem edzőteremben és sportolás közben...

MA 10:18

A hatalmas leírás után szárnyal a GM – mi a titok?

🚀 A General Motors kedden hatalmasat ugrott a tőzsdén: a részvény 9 százalékot emelkedett, így a piac 2 600 milliárd forintnál is többel értékelte fel a vállalatot...

MA 10:02

A hírhedt WinRAR-sebezhetőségre ráálltak a hackerek

🛡 A WinRAR egyik súlyos, régóta ismert sebezhetősége, a CVE-2025-8088 továbbra is valódi aranybánya a hackerek számára...

MA 09:57

A NASA-gép hőstette: drámai kényszerleszállás Houstonban

Egy NASA WB-57 típusú repülőgép kényszerleszállást hajtott végre Houstonban, miután leszállás közben meghibásodott a futóműve...

MA 09:49

A mesterségesintelligencia-rajongó Nothing New Yorkban is üzletet nyit?

A Nothing hamarosan megnyitja második üzletét Bengaluru városában, Indiában, február 14-én...

MA 09:41

Az USA-piacra tör a Tether új stabilcoinja

A világ legnagyobb stabilcoin-kibocsátója, a Tether bejelentette, hogy USAT néven új, kifejezetten az amerikai szabályozásnak megfelelő stabilcoint indít...