2026. 03. 05., 06:21

Az MI, amely tudja, mikor gondolkodjon – és mikor ne

Az MI, amely tudja, mikor gondolkodjon – és mikor ne
A Microsoft új MI-modellje, a Phi-4-reasoning-vision-15B jelentősen megzavarhatja a mostani erőviszonyokat a mesterséges intelligencia világában. A rendszer 15 milliárd paramétert használ, és egyszerre képes képeket és szöveget kezelni, összetett matematikai és tudományos problémákon gondolkodni, diagramokat értelmezni, valamint grafikus felületeken eligazodni. Mindeközben töredéknyi számítási erőforrást és adatmennyiséget használ fel a vetélytársakhoz képest.

Egészen pontosan: nagy tudás, kevés adatból

A modell nagyjából 200 milliárd token multimodális adaton tanult, miközben a hasonló képességű konkurensek – például a Google vagy az OpenAI megoldásai – legalább ötször ennyit, egy billió tokent használtak fel saját modelljeik tanításához. A jelentős csökkenés masszívan csökkenti a fejlesztési költségeket és a környezeti lábnyomot: nemcsak olcsóbb a működtetés, de üzleti szempontból is vonzó, ha kevesebb erőforrással is versenyképes marad egy modell.

A kulcs nem az adatmennyiségben, hanem a minőségben és a válogatásban rejlik. A Microsoft csapata manuálisan válogatta át a különböző nyílt forrású és belső adatokat, minden adathalmaz mintáit öt-tíz percig szemlézték, javították a hibás válaszokat, és kreatív módon hasznosították a minőségi, de kérdés nélküli képeket is. A kutatók szerint meglepően sok logikai és formátumbeli hiba rejtőzik a MI-ket tanító adathalmazokban, ami az iparág egészének tanulságul szolgál.

Gondolkodj, de ne feleslegesen!

A Phi-4-reasoning-vision egyik legérdekesebb újítása az, hogy felismeri, mikor érdemes összetetten, több lépésben végiggondolni egy problémát, és mikor elég azonnal válaszolni. A nyelvi modellek világában divatossá vált a chain-of-thought (láncszerű gondolkodás) megközelítés, de képfeldolgozásnál – például feliratozásnál vagy karakterfelismerésnél – ez általában felesleges, és még ronthat is az eredményen.

A Microsoft csapata ezért vegyes modellt tanított: az adatminták 20 százalékánál explicit módon, lépésenként követhető gondolkodást vártak el, 80 százaléknál pedig gyors, közvetlen választ. Az MI így megtanulta, hogy a tudományos problémákat több lépésben érdemes elemezni, míg a percepcióalapú feladatokat röviden és hatékonyan kell kezelni.

Hatékony architektúra, olvasható képernyőképek

A modell egy úgynevezett mid-fusion architektúrát alkalmaz: a képeket egy speciális vizuális kódoló alakítja tokenekké, amelyeket aztán a nyelvi modell értelmez. A képfeldolgozást kiemelten optimalizálták: akár natív 720p-s, vagyis körülbelül 3 600 tokenes felbontású adatokkal is kimagaslóan teljesít, különösen a finom részletek felismerését igénylő feladatoknál, például felhasználói felületek elemeinek azonosításánál.

Ez lehetővé teszi, hogy például önálló szoftverügynökök asztali vagy mobil környezetekben is magabiztosan navigáljanak, felismerjék a gombokat, menüket és szövegmezőket. Fontos előnye az alacsony késleltetés és a kicsi modellméret – két alapelvárás minden interaktív MI-megoldásnál.


Gyorsabb és olcsóbb, de nem mindig a legpontosabb

A modell a saját teszteken 84,8 pontot ért el tudományos diagramoknál, 83,3-at általános képfelismerésben, 75,2-t optikai karakterfelismerésnél, 88,2-t felhasználói felületelemek összerendelésében és 54,3-at multimodális általános teszteken (MMMU). Ezek az eredmények kicsit elmaradnak a legnagyobb, több százmilliárd paraméteres versenytársakétól, de lényegesen közelebb állnak hozzájuk, mint amennyivel kevesebb erőforrásból dolgozik a rendszer.

A Microsoft minden értékelést saját maga végzett, transzparens tesztbeállításokat használva (rögzített hőmérséklet, greedy dekódolás, legfeljebb 4 096 kimeneti token). Így elkerülték a benchmarklisták gyakori trükkjeit, vállalva, hogy a nyilvános értékek néha alacsonyabbak lesznek, de azok ténylegesen mérlegelhetők és publikusan ellenőrizhetők.

A Phi-család robbanásszerű terjedése

A Phi-4-reasoning-vision-15B nem egyedül dolgozik: egy gyorsan bővülő modellcsalád része – ezek skálázhatók nyelv, vizuális feladatok, eszközre telepíthetőség, oktatási és robotikai alkalmazások terén is. Az első, 14 milliárd paraméteres Phi-4 2024 végén jelent meg, és már az is meglepően hatékony volt. Azóta elkészült a Phi-4 Reasoning Mini és a Phi Silica is, amely saját adapterrel oktatási feladatokhoz (például Kahoot! kvízek generálásához) is használható. Egy optimalizált változat a Dimensity 9400 chipen akár 800 token/másodperc sebességgel fut – elég gyors a valós idejű MI-hez okostelefonon vagy tableten.

A család legmerészebb újdonsága a Rho-Alpha, amely MI-alapú robotikai modellként természetes nyelvi utasításokat képes vezérlőjelekké fordítani kézszimulációval is rendelkező humanoidok számára, így egyesíti az érzékelést és az irányítást.

Az MI-fejlesztés új korszaka: amikor a kevesebb több

A Microsoft Phi-sorozata fordulópontot jelez az MI-iparágban. Az elmúlt két évben a “minél nagyobb, annál jobb” elve uralkodott – de a Phi-modellcsalád azt bizonyítja, hogy minőségi adatkezeléssel, okos architektúrával és átgondolt tanítási folyamatokkal is fel lehet venni a versenyt az óriásokkal. Ez mérföldkő lehet mindazoknak, akik korlátozott erőforrásokkal, olcsóbb vagy helyi MI-t szeretnének (például céges szervereken, helyi eszközökön, interaktív alkalmazásokban).

Nyílt elérhetőség, könnyű finomhangolás és részletes dokumentáció segíti majd a fejlesztőket abban, hogy saját igényeikre szabják akár helyben is futó MI-rendszereiket. Bár az óriásmodellek néhány benchmarkon továbbra is jobbak, a Phi-4-reasoning-vision lényege nem az abszolút, hanem a gyakorlati versenyképesség.

A végső kérdés: ki tudja-e majd használni a kiélezett helyzetekben a kompromisszummentes gyorsaság és a testreszabott gondolkodás előnyeit – a fejlesztők döntik el, mikor tényleg nekik kell gondolkodniuk, és mikor bízhatják mindezt az MI-re.

2025, adminboss, venturebeat.com alapján

  • Te hogyan szabályoznád, hogy az MI mikor gondolkodik összetetten és mikor gyorsan?
  • Szerinted mennyire bíznád rá az MI-re a döntéseket egy fontos helyzetben?


Legfrissebb posztok

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) CrestWall – 4K Wallpapers (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) Monthly Dystopia (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Risp:...

APP
szerda 09:11

APPok, Amik Ingyenesek MA, 6/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Planetary Hours + Widget (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) ImgRef (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) CrestWall – 4K Wallpapers...

kedd 19:34

A Wharton szerint később ürülhet ki a TB-kassza

A pennsylvaniai Wharton Egyetem új kutatása szerint a társadalombiztosítás nyugdíjalapja a vártnál később apadhat el...

kedd 19:23

A Star Wars-legenda Mark Hamill kulcsszerepben a Twisted Metalban

🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...

kedd 19:12

A Firefox 152 megújul: jön a JPEG XL, új beállítások

A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...

kedd 19:02

Az első nukleáris óra elindult – jön az ötödik kölcsönhatás?

⚡ Tipikus eset, amikor egy évtizedeken át lehetetlennek hitt ötlet hirtelen valósággá válik...

kedd 18:57

Az új Pókember-film sztárjai: a Galaxy Z Flip 7 és Fold 7

🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...

kedd 18:45

Az ultramély kutatás: Sakana AI 100 oldalas jelentést készít 8 óra alatt

🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...

kedd 18:24

Az új Ebola-járvány mekkora veszélyt jelent?

A Kongói Demokratikus Köztársaságot sújtó új Ebola-járvány már a harmadik legnagyobbnak számít a világon...

kedd 18:02

A CISA figyelmeztet: újabb cPanel-bővítmény-hibát aktívan kihasználnak

Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...

kedd 17:11

A Hold-méretű, száguldó ütköző, amely felforgatta a Vénusz forgását

Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...

kedd 17:01

A zsarolóbandák a Microsoft Teams reléivel álcázzák forgalmukat

Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...

kedd 16:55

Az okos medál, ami jelzi, meddig napozhatsz leégés nélkül

A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...

kedd 16:45

Hány elemi részecske létezik valójában?

😰 Fontos kérdés, hogy hányféle elemi részecske létezik valójában. A fizikában ez nem is olyan egyszerű, mint amilyennek elsőre tűnhet...

kedd 16:12

A Threads már havi félmilliárd felhasználónál jár

Felmerül a kérdés, hogy mi állhat a Meta új szöveges közösségi hálójának hatalmas népszerűsége mögött...

kedd 15:56

A nő, aki Elon Musk mellett óriássá tette a SpaceXet

🚀 Gwynne Shotwell nevét a nagyközönség ritkán hallja, pedig nélküle elképzelhetetlen volna a SpaceX hihetetlen felemelkedése...

kedd 15:45

Az Nvidia 25 milliárd dolláros kötvénykibocsátással turbózza az MI-versenyt

Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...

kedd 15:25

A Samsung S95H OLED: lenyűgöző, de nem a várt Frame TV

Minden évben hatalmas felhajtás övezi a legújabb televíziókat, és mostanra a Samsung S95H OLED igazi különlegességnek számít ebben a mezőnyben...

kedd 15:01

A SprySOCKS új Windows-változata kormányzati rendszereket támad világszerte

A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...

kedd 14:44

A Gmail AI-összegzései már mindenkinél futnak – így kapcsolod ki

Többek között már nem kell magadnak elolvasnod az e-maileket: a Gemini ezentúl átnézi őket helyetted – akár akarod, akár nem...

kedd 13:57

A 2026-os Razer Blade 18 letarolja a mezőnyt – ha meg tudod fizetni

🚀 A Razer Blade 18 (2026) ismét új szintre emeli, mit jelent egy valódi gamer laptop...

kedd 13:34

A Fortinet FortiSandbox kritikus sebezhetőségeit már aktívan kihasználják

⚠ Felmerül a kérdés, mennyire vagyunk biztonságban, ha még a legnagyobb kiberbiztonsági cégek termékei is súlyos hibákat rejtenek...

kedd 13:23

Az új COVID-oltások továbbra is óvják a szívet, kutatás szerint

Bár a legtöbb amerikai már nem igényli a szezonális COVID-19-oltásokat, a legújabb vakcinák továbbra is jelentős védelmet nyújtanak a szív- és érrendszeri megbetegedések ellen, különösen a 75 év felettieknek és a krónikus betegségben szenvedőknek...

kedd 13:01

Az iRhythm közölte: hackerek ellopták a betegek adatait

🔒 A digitális egészségügyi szolgáltató iRhythm Holdings súlyos adatlopást jelentett be, miután hackerek érzékeny személyes és egészségügyi adatokat tulajdonítottak el a cég által használt külső üzleti alkalmazásokból...

kedd 12:46

Az Atacama közepe a hittnél 20 millió évvel korábban száradt ki

🌍 Chile északi részén, a Föld egyik legszárazabb területén húzódik az Atacama-sivatag, amely évente átlagosan kevesebb mint 5 milliméter csapadékot kap...

kedd 12:34

Az Xbox Game Studios vezetője és stábfőnöke távozik – jön a reset?

Lényeges szempont, hogy a vezetői szintű távozások megrázhatják az egész játékipart, különösen akkor, ha azokat komoly változások előzik meg...

kedd 12:24

Az amerikaiak miért utálják egyre jobban az MI-adatközpontokat?

Az idei év elején egy hatalmas, hat darab, egyenként 21 méter magas épületből álló adatközpont terveit ejtették Észak-Karolinában, miután a fejlesztőt szigorodó szabályok és a helyi lakosság tiltakozása miatt visszalépésre kényszerítették...