Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni
Az MI-fejlesztések hihetetlen sebességgel változtatják meg azt, ahogyan képeket feldolgozunk, válogatunk vagy szerkesztünk. Néhány éve még elképzelhetetlen lett volna, hogy valós időben, különleges hardver és bonyolult telepítés nélkül eltávolíthatjuk a háttért a fotókról. Ma már akár az utolsó pizsamás szelfiden is szinte varázsütésre tűnik el a zavaró háttér – mindezt egyetlen MI-modell segítségével.

Mi is az az MI-alapú képszegmentáció?

Az MI-alapú képszegmentáció lényege, hogy a kép minden egyes pixeléről eldönti, melyik kategóriába tartozik: például előtér (ami minket érdekel), vagy háttér (amit ki akarunk takarni, átszínezni, eltüntetni). Ez eltér a hagyományos objektumfelismeréstől, amely csak egy körülhatároló keretet rajzol például egy arc vagy kutya köré, de nem mondja meg, pontosan melyik pixel tartozik az adott objektumhoz.

A kiemelten fontos képrészlet – a szaknyelvben ezt hívják szaliencia detektálásnak – egy bináris maszkon keresztül jelenik meg: ahol a kép igazán lényeges (például a főszereplő), ott magas értéket (255), a háttérben alacsonyat (0) kapnak a pixelek. Nem hagyható figyelmen kívül, hogy néhány alkalmazás összetettebb – lehet többféle előtér-kategória is, például egy kutya vagy egy szék –, ilyen az úgynevezett többosztályos maszkolás.

A mindennapi életben ez lehetővé teszi, hogy egy webáruház egyszerű, fehér háttérre illessze a termékeket, vagy hogy a felhasználók kreatívan kivághassák magukat egy mémhez.

Kiemelkedő modellek a háttéreltávolításban

Négy, jelenleg csúcskategóriás modellt teszteltek:

– U2-Net: Több mint 21 ezer képet tartalmazó adathalmazon tanult, több szintű képelemzést végez.
– IS-Net: Az U2-Net továbbfejlesztett változata, kétlépcsős feldolgozással: előbb durva maszkolás, majd a határvonalak finomítása.
– BiRefNet: Kétirányú, többszörös precíziós áttekintéssel ellenőrzi magát, hogy a részletek és az egész kép összhangban legyenek.
– SAM (Segment Anything Model): A Meta által fejlesztett, általános célú modell, amely akár több kategóriát is képes leválasztani egy képről.

Az U2-Net és az IS-Net hasonló metódussal, de eltérő megközelítéssel dolgozik. A BiRefNet először a fontos régiókat körvonalazza, majd egy második körben az apró részleteket is kidolgozza, végül ellenőrzi, hogy a részletek illeszkednek-e az egész képhez. A SAM modelltől eltérően, amely más típusú felhasználásra erősebb, mivel működéséhez némi előzetes instrukció szükséges.

Mennyire pontosak ezek a modellek?

A pontosságot elismert mutatókkal mérik:

– Intersection over Union (IoU): Megnézi, mekkora az átfedés a becsült és a valós előtér pixelek között. 1 a tökéletes egyezés, 0 a teljes eltérés.
– Dice-köeficiens: Hasonló, de valamivel megengedőbb az IoU-nál, inkább az átfedést jutalmazza.
– Pixelpontosság: A helyesen azonosított pixelek aránya a teljes képhez viszonyítva – viszont nagy háttér esetén elfedheti a hibákat.

Ezért leginkább az IoU-t és a Dice-köeficienst vették alapul, mert a pixelpontosság félrevezető lehet: akár egy csak a háttérre koncentráló modell is kiugró pontszámot érhet el ezen a mutatón, még ha az előtér felismerése hiányos is.


Gyorsaság és pontosság kéz a kézben?

A méréshez kétféle GPU-t használtak: egy 23 GB-osat (átlagos fogyasztói hardver), illetve egy 94 GB-osat (nagy MI-műveletekhez). A kisebb GPU-n a könnyű modellek bizonyultak a leggyorsabbnak: az U2-Net (176 MB) és az IS-Net (179 MB) rendre 307 és 351 milliszekundumos átlagos feldolgozási időt értek el. A nagyobb, bonyolultabb BiRefNet (973 MB) csak 821 milliszekundum alatt végzett, de a nagyobb GPU-n már utolérte a többi modellt.

Fontos, hogy a tesztekhez két adathalmazt használtak: egy “Humans” (Emberek, 7000 kép) és egy vegyes, komplexebb (DIS5K) készletet. A modellek pontosság és sebesség terén is jobban teljesítettek az egyszerűbb, embereket ábrázoló képekkel. A bonyolultabb, zsúfolt képeken (DIS5K) gyakoribbak voltak a hibák, és a feldolgozás is lassabb lett.

A specializált modellek kissé pontosabbak, de a mindennapi gyakorlatban egy univerzális, gyors modell előnyösebb. A SAM modell viszont automatikus, “prompt nélküli” feladatoknál túl lassúnak és kevésbé pontosnak bizonyult.

A BiRefNet minden változatával az élmezőnyhöz tartozott, átlagosan 0,87-es IoU és 0,92-es Dice-köeficiens értéket ért el, míg a fókuszált U2-Net az “emberek” készleten kiemelkedő (IoU 0,89; Dice 0,94), viszont a vegyes képeken gyenge (IoU 0,39; Dice 0,52) eredményt produkált.

Tipikus hibák: mi okoz nehézséget a gyakorlatban?

A modellek gyakran az apró részletek felismerésében (például egy kerék küllői), vagy éppen a lényeg kiemelésében hibáznak. Előfordult, hogy az U2-Net vagy az IS-Net a póló logóját kiemelte, de magát a pólót már nem. A BiRefNet viszont minden esetben jól felismerte az objektum egészét, mivel folyamatosan összeveti a globális és lokális információkat.

Így használható az automata háttéreltávolítás

A Cloudflare Images API már támogatja a képek automatikus háttéréltávolítását, akár tárhelyen, akár máshol tárolt fotókról legyen szó. A segment paraméterrel nemcsak az előtér emelhető ki: a háttér átlátszóvá is tehető, vagy kitölthető fehérrel. Egy adott URL-en keresztül például lekérhető egy arcra fókuszált, háttér nélküli kép, ahol a transzparens területeket fehér (#FFFFFF) szín váltja fel; mindez nagyjából 1100–1150 forintos MI-munka költségével.

Az Images API akár programozott munkafolyamatokba is integrálható: például egy egyszerű képszerkesztőben különböző képeket rétegezhetünk egymásra, a kivágott elemeket pedig használhatjuk mémekhez, matricákhoz.

A háttéréltávolítás funkció újabb lépést jelent az interaktív, kreatív MI-eszközök fejlesztésében, és minden jel arra mutat, hogy a jövőben még kifinomultabb, gyorsabb és pontosabb megoldások várhatóak – egyre egyszerűbb használattal.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted jó ötlet, ha az MI automatikusan eldönti, mi a lényeges egy képen?
  • Te bízol abban, hogy mindig helyesen működik egy ilyen háttéreltávolító?
  • Ha hibásan maszkírozna le egy képet, te javítanád kézzel vagy rábíznád újra az MI-re?


Legfrissebb posztok

MA 12:50

Az új James Bond fiatal, nyers – és még keresi önmagát

Ki gondolta volna, hogy egyszer egy 26 éves, tapasztalatlan James Bond veszi át a stafétabotot, miközben a klasszikus figurát teljesen újragondolják?..

MA 12:33

Az űr mélyén hét órán át tombolt a rejtélyes robbanás

💥 A csillagászokat megdöbbentette egy soha nem látott esemény: egy különösen hosszú, hétórás gamma-kitörés érkezett hozzánk 8 milliárd fényév távolságból, a Pajzs (Scutum) csillagkép irányából...

MA 12:20

Az év legjobb Chromebookjai 2025-ben: árak, teljesítmény, titkos favoritok

💻 Felmerül a kérdés, melyik Chromebook lehet a legjobb választás idén azoknak, akik egyszerű, gyors és pénztárcabarát laptopot keresnek...

MA 10:46

A heavy metal gyógyítja a tinik lelkét a Blackfeet rezervátumban

🎸 Felmerül a kérdés, mit keres a heavy metal egy indián rezervátumban, ahol a fiatalokat a sötétség gyakran szó szerint fenyegeti...

MA 10:29

Az ETF-láz forrpontra jut: a Goldman Sachs mindent egy lapra tesz

🔥 A Goldman Sachs Asset Management nagy tétet tett azokra a tőzsdén kereskedett alapokra (ETF-ekre), amelyek opciók használatával védelmet nyújtanak a piaci veszteségek ellen...

MA 10:23

A fiú, aki visszatért az ősoroszlán karmaiból

🐯 Egyedülálló régészeti lelet borzolta fel a tudósok kedélyét Bulgáriában: nagyjából 6 200 évvel ezelőtt egy tinédzsert támadott meg egy oroszlán, és bár az áldozat súlyosan megsérült, valahogy mégis túlélte a támadást – legalábbis egy darabig...

MA 10:16

Az Affinity ingyen lett: a Canva felforgatja a dizájnvilágot

🚀 Októberben a Canva World Tour rendezvényen bejelentették: a megújult, professzionális Affinity mostantól teljesen ingyenes...

MA 09:52

Az első robotséf, amely tényleg leveszi rólad a főzés terhét

🥣 Amíg dolgozom, odalent a konyhában a Posha robotséf épp krémes makarónit készít sajttal és fokhagymával...

MA 09:36

Az új Alien-játék letarolhatja a piacot

Az Alien-filmek rajongói újabb okot kaptak az örömre: egy vadonatúj, AAA-kategóriájú Alien-játék készül, amely 2028-ban jelenhet meg minden főbb platformra...

MA 09:30

A MI-robbanás egyik nagy nyertese lehet a Vanguard Utilities ETF

Az elmúlt két évtizedben az Egyesült Államok áramfogyasztása alig növekedett, köszönhetően az energiatakarékos technológiáknak, mint a LED-izzók és a modern háztartási gépek...

MA 09:22

Jön az igazi Half-Life 3? Tavaszi premier, Steam Machine-pletykák

🚀 A Half-Life univerzum rajongói most újabb reménysugárba kapaszkodhatnak: iparági bennfentesek szerint a Half-Life 3 nemcsak valóban készül, hanem 2026 tavaszán a Valve új Steam Machine konzoljának premierjével együtt is megjelenhet...

MA 09:15

Az Ozempic váratlan előnye: jót tehet az agynak

💡 Felmerült, hogy a 2-es típusú diabétesszel élőknél a GLP-1 agonista gyógyszerek – köztük az Ozempic, a Trulicity és a Victoza – nemcsak a vércukorszintet javíthatják, hanem váratlan módon csökkenthetik az epilepszia kockázatát is...

MA 09:09

Véget ér a Berkshire-módszer? Óriási átalakulás Buffett távozása után

💰 Fontos szempont, hogy az elmúlt héten a pénzügyi világot meglepte Todd Combs hirtelen távozása a Berkshire Hathaway-től...

MA 09:02

Az MI-reklámözönben fuldoklunk – elég volt!

Az emberek naponta átlagosan tízezer reklámmal találkoznak – legalábbis ezt mondják, és bármennyire is túlzásnak hangzik, sajnos egyre igazabbnak tűnik...

MA 08:57

Az új mozgásos konzol letarolja a karácsonyi piacot

🎁 A Nex Playground nevű konzol idén karácsonykor mindenkit meglepett: forgalmát megnégyszerezve 600 000 eladott készülék felé száguld; kétszer annyi fogy belőle, mint Xboxból...

MA 08:50

A maine-i tavak újra a búvárok kísérteties dalától zengnek

🐳 Az elmúlt években egyre több jegesbúvár (loon) jelent meg Maine tavai felett és tavaiban, hangos, kísérteties kiáltásaikkal újra életet lehelve a tájba...

MA 08:43

A jótékonyság királynője: MacKenzie Scott megint milliárdokat oszt szét

🎁 MacKenzie Scott 2025-ben ismét hatalmas összeget, 7,17 milliárd dollárt, vagyis mintegy 2 630 milliárd forintot adományozott mintegy 225 szervezetnek...

MA 08:36

A tea erősítheti, a sok kávé gyengítheti az idősebb nők csontjait

Érdemes megemlíteni, hogy két hétköznapi ital, a tea és a kávé hosszú távon is jelentős hatással lehet a nők csontjaira...

MA 08:29

A Slab megérkezett: az első MIDI-kontroller a Serato Studiohoz

🎹 A zenealkotás sokkal élvezetesebb, ha nem csak egérrel és billentyűzettel dolgozol, hanem kézzel fogható vezérlőkkel is játszhatsz...