2026. 03. 05., 06:21

Az MI, amely tudja, mikor gondolkodjon – és mikor ne

Az MI, amely tudja, mikor gondolkodjon – és mikor ne
A Microsoft új MI-modellje, a Phi-4-reasoning-vision-15B jelentősen megzavarhatja a mostani erőviszonyokat a mesterséges intelligencia világában. A rendszer 15 milliárd paramétert használ, és egyszerre képes képeket és szöveget kezelni, összetett matematikai és tudományos problémákon gondolkodni, diagramokat értelmezni, valamint grafikus felületeken eligazodni. Mindeközben töredéknyi számítási erőforrást és adatmennyiséget használ fel a vetélytársakhoz képest.

Egészen pontosan: nagy tudás, kevés adatból

A modell nagyjából 200 milliárd token multimodális adaton tanult, miközben a hasonló képességű konkurensek – például a Google vagy az OpenAI megoldásai – legalább ötször ennyit, egy billió tokent használtak fel saját modelljeik tanításához. A jelentős csökkenés masszívan csökkenti a fejlesztési költségeket és a környezeti lábnyomot: nemcsak olcsóbb a működtetés, de üzleti szempontból is vonzó, ha kevesebb erőforrással is versenyképes marad egy modell.

A kulcs nem az adatmennyiségben, hanem a minőségben és a válogatásban rejlik. A Microsoft csapata manuálisan válogatta át a különböző nyílt forrású és belső adatokat, minden adathalmaz mintáit öt-tíz percig szemlézték, javították a hibás válaszokat, és kreatív módon hasznosították a minőségi, de kérdés nélküli képeket is. A kutatók szerint meglepően sok logikai és formátumbeli hiba rejtőzik a MI-ket tanító adathalmazokban, ami az iparág egészének tanulságul szolgál.

Gondolkodj, de ne feleslegesen!

A Phi-4-reasoning-vision egyik legérdekesebb újítása az, hogy felismeri, mikor érdemes összetetten, több lépésben végiggondolni egy problémát, és mikor elég azonnal válaszolni. A nyelvi modellek világában divatossá vált a chain-of-thought (láncszerű gondolkodás) megközelítés, de képfeldolgozásnál – például feliratozásnál vagy karakterfelismerésnél – ez általában felesleges, és még ronthat is az eredményen.

A Microsoft csapata ezért vegyes modellt tanított: az adatminták 20 százalékánál explicit módon, lépésenként követhető gondolkodást vártak el, 80 százaléknál pedig gyors, közvetlen választ. Az MI így megtanulta, hogy a tudományos problémákat több lépésben érdemes elemezni, míg a percepcióalapú feladatokat röviden és hatékonyan kell kezelni.

Hatékony architektúra, olvasható képernyőképek

A modell egy úgynevezett mid-fusion architektúrát alkalmaz: a képeket egy speciális vizuális kódoló alakítja tokenekké, amelyeket aztán a nyelvi modell értelmez. A képfeldolgozást kiemelten optimalizálták: akár natív 720p-s, vagyis körülbelül 3 600 tokenes felbontású adatokkal is kimagaslóan teljesít, különösen a finom részletek felismerését igénylő feladatoknál, például felhasználói felületek elemeinek azonosításánál.

Ez lehetővé teszi, hogy például önálló szoftverügynökök asztali vagy mobil környezetekben is magabiztosan navigáljanak, felismerjék a gombokat, menüket és szövegmezőket. Fontos előnye az alacsony késleltetés és a kicsi modellméret – két alapelvárás minden interaktív MI-megoldásnál.


Gyorsabb és olcsóbb, de nem mindig a legpontosabb

A modell a saját teszteken 84,8 pontot ért el tudományos diagramoknál, 83,3-at általános képfelismerésben, 75,2-t optikai karakterfelismerésnél, 88,2-t felhasználói felületelemek összerendelésében és 54,3-at multimodális általános teszteken (MMMU). Ezek az eredmények kicsit elmaradnak a legnagyobb, több százmilliárd paraméteres versenytársakétól, de lényegesen közelebb állnak hozzájuk, mint amennyivel kevesebb erőforrásból dolgozik a rendszer.

A Microsoft minden értékelést saját maga végzett, transzparens tesztbeállításokat használva (rögzített hőmérséklet, greedy dekódolás, legfeljebb 4 096 kimeneti token). Így elkerülték a benchmarklisták gyakori trükkjeit, vállalva, hogy a nyilvános értékek néha alacsonyabbak lesznek, de azok ténylegesen mérlegelhetők és publikusan ellenőrizhetők.

A Phi-család robbanásszerű terjedése

A Phi-4-reasoning-vision-15B nem egyedül dolgozik: egy gyorsan bővülő modellcsalád része – ezek skálázhatók nyelv, vizuális feladatok, eszközre telepíthetőség, oktatási és robotikai alkalmazások terén is. Az első, 14 milliárd paraméteres Phi-4 2024 végén jelent meg, és már az is meglepően hatékony volt. Azóta elkészült a Phi-4 Reasoning Mini és a Phi Silica is, amely saját adapterrel oktatási feladatokhoz (például Kahoot! kvízek generálásához) is használható. Egy optimalizált változat a Dimensity 9400 chipen akár 800 token/másodperc sebességgel fut – elég gyors a valós idejű MI-hez okostelefonon vagy tableten.

A család legmerészebb újdonsága a Rho-Alpha, amely MI-alapú robotikai modellként természetes nyelvi utasításokat képes vezérlőjelekké fordítani kézszimulációval is rendelkező humanoidok számára, így egyesíti az érzékelést és az irányítást.

Az MI-fejlesztés új korszaka: amikor a kevesebb több

A Microsoft Phi-sorozata fordulópontot jelez az MI-iparágban. Az elmúlt két évben a “minél nagyobb, annál jobb” elve uralkodott – de a Phi-modellcsalád azt bizonyítja, hogy minőségi adatkezeléssel, okos architektúrával és átgondolt tanítási folyamatokkal is fel lehet venni a versenyt az óriásokkal. Ez mérföldkő lehet mindazoknak, akik korlátozott erőforrásokkal, olcsóbb vagy helyi MI-t szeretnének (például céges szervereken, helyi eszközökön, interaktív alkalmazásokban).

Nyílt elérhetőség, könnyű finomhangolás és részletes dokumentáció segíti majd a fejlesztőket abban, hogy saját igényeikre szabják akár helyben is futó MI-rendszereiket. Bár az óriásmodellek néhány benchmarkon továbbra is jobbak, a Phi-4-reasoning-vision lényege nem az abszolút, hanem a gyakorlati versenyképesség.

A végső kérdés: ki tudja-e majd használni a kiélezett helyzetekben a kompromisszummentes gyorsaság és a testreszabott gondolkodás előnyeit – a fejlesztők döntik el, mikor tényleg nekik kell gondolkodniuk, és mikor bízhatják mindezt az MI-re.

2025, adminboss, venturebeat.com alapján

  • Te hogyan szabályoznád, hogy az MI mikor gondolkodik összetetten és mikor gyorsan?
  • Szerinted mennyire bíznád rá az MI-re a döntéseket egy fontos helyzetben?


Legfrissebb posztok

csütörtök 20:34

Az igazi PlayStation-élmény PC-n: megérkezett a trükkös adapter

🎮 Végre elérhetővé vált a teljes PS5-ös DualSense-élmény PC-n is, anélkül, hogy kábelekkel kellene bajlódni...

csütörtök 20:23

Az ellenőrzés szigorodik: a Polymarket Wall Street-szintre emeli szabályait

A Polymarket, a kriptoalapú jóslási piac radikális lépést tett: megállapodott a Chainalysis-szel, hogy valós időben figyeljék a kereskedéseket...

csütörtök 20:12

Az új előrejelzési piac: a Gemini berobban az amerikai piacra

Az amerikai kriptopiacon hatalmas lendületet vett a verseny, miután a Winklevoss ikrek kriptotőzsdéje, a Gemini megszerezte a szükséges szövetségi engedélyeket a származékos és predikciós piaci tevékenységekhez...

csütörtök 20:01

Az olajár háborús csúcson: ennyivel fizetünk többet a benzinért

🔥 A Brent nyersolaj hordónkénti ára csütörtökön elérte a 126 dollárt (kb...

csütörtök 19:56

Az MI olcsón indul, de gigászi számlákat hoz

💸 Az MI térnyerése miatt egyre több vállalat helyezi át a hangsúlyt a kísérleti modellek fejlesztéséről a tényleges, mindennapos MI-alkalmazásokra...

csütörtök 19:45

A fél internet veszélyben: kritikus cPanel-sebezhetőség

Az online világ egyik legfontosabb webszerver-kezelő eszközében olyan súlyos biztonsági hibát fedeztek fel, amely több tízmillió weboldalt fenyeget...

csütörtök 19:24

Az AdGuard VPN Macen végre akadálymentesen használható

A legújabb, 2.9-es AdGuard VPN-frissítés a Mac-felhasználók jelentős csoportjának hoz igazán hasznos újítást: az alkalmazás most már akadálymentesen használható látássérült felhasználók számára is...

csütörtök 19:12

Berobbant a stabilcoin-láz: bankok és fintech cégek a digitális pénzvonaton

💰 Mint minden valamirevaló krimi, ez is csendben kezdődött: az Anchorage Digital, az egyik legnagyobb amerikai digitális letétkezelő most az M0-ra (ejtsd: „em nullára”) bízta a stabilcoin-technológiájának fejlesztését...

csütörtök 19:03

Az olcsó gamer fejhallgatók új királya? Glorious GHS Eternal teszt

🎧 A gamer fejhallgató választásánál mindig felmerül a dilemma: vezetékes vagy vezeték nélküli legyen a következő fülesem?..

csütörtök 18:57

Az MI önjáró lett: a Writer kihívja a techóriásokat

Érdekes felvetés, hogy az MI-alapú vállalati rendszerek mennyire tudnak beavatkozás nélkül működni...

csütörtök 18:45

Az igazi meglepetés: Ingyen kapod a Wasteland felújított kiadását, és működik!

Képzeld el, hogy egy váratlan hiba miatt teljesen ingyen be lehetett húzni a legendás Wasteland – Felújított kiadást (Wasteland Remastered) a Microsoft Store-ban...

csütörtök 18:34

Az időjárás-jelentés, ahol a hőségnek ára van

🌡 Felmerül a kérdés, hogy hová vezet az, amikor a gazdasági szereplők végül mindent, még a hőmérsékletet is pénzre váltható eseménnyé tesznek...

csütörtök 18:23

Az elszálló memóriaárak alaposan megterhelik a pénztárcákat

A fogyasztók egyre nehezebben jutnak hozzá megfizethető memóriához, miközben a félvezetőiparban hatalmas pénzek forognak...

csütörtök 17:14

Az Olden Era több mint nosztalgia: a stratégák mennyországa

🗺 Felmerül a kérdés, hogy lehetséges-e valóban újat mondani a nagy klasszikusok után, vagy az új versenyzők örökké csak az elődök nyomdokában járnak majd...

csütörtök 17:02

A bitcoin újra szárnyal: áttöri a 80 ezer dolláros határt?

🚀 A bitcoin ára ismét felfelé kúszik, de a 80 ezer dolláros (kb...

csütörtök 16:56

Az Equalizer-kábel: csodaszer a videokártyád védelmére, vagy átverés?

🔧 A videokártyák túlmelegedése újabban mindennapos probléma, ami miatt a gyártók nem csatlakozócserével, hanem újfajta kábelekkel és tápegységekkel igyekeznek biztonságot nyújtani...

csütörtök 16:45

Az új Chuwi ultrakönnyű laptopért mélyen a zsebbe kell nyúlni

💸 A Chuwi bemutatta legújabb ultrakönnyű laptopját, a CoreBook Air 226V-t, amely kevesebb mint 1 kg-ot nyom, és mindössze 10,9 mm vastag házba csomagolja a legújabb Intel Core Ultra 5 226V processzort, amely a Lunar Lake architektúrára épül...

csütörtök 16:34

Tényleg a Polymarketen fogadnak az amerikai hadsereg emberei?

🤔 Az utóbbi időben feltűnően magas nyerési arányokat mértek a katonai és védelmi eseményekre kötött fogadásoknál a Polymarket platformján – messze túlszárnyalva a politikai fogadások átlagát...

csütörtök 16:23

Az újabb DeFi-fiaskó: 1,7 milliárd forintot bukott a Wasabi Protocol

Felmerül a kérdés, hogy mikor lesz vége a decentralizált pénzügyek botrányhullámának, hiszen újabb, súlyos támadás rázta meg a piacot...

csütörtök 16:12

A memóriaár-robbanás fékezi a Windows-eladásokat

A hardverpiacra már most komoly hatással van a globális memóriahiány, amely az előrejelzések szerint hamarosan érzékelhető lesz a Microsoft bevételeiben is...

csütörtök 16:01

A valaha talált legnagyobb viking kincs Norvégiában került elő

Egy kelet-norvégiai farm földjében csaknem 3 000, különböző országokban – Angliában, Németországban, Dániában és Norvégiában – vert ezüstérmét tártak fel a régészek...

csütörtök 15:56

A tartóssági rendszer az Arc Raidersben inkább büntet, mint szórakoztat

Az Arc Raiders világában a fegyverjavítás nem tartozik a játékosok kedvenc elfoglaltságai közé...

csütörtök 15:47

A láthatatlan ügyfélszolgálat forradalma: az MI nagy áttörése

Megvizsgálandó, hogy a mesterséges intelligencia miként alakítja át a nagyvállalatok ügyfélszolgálati működését, és miért döntenek óriáscégek, mint az Accenture vagy az Adobe, úgy, hogy ilyen fejlesztések mögé sorakoznak fel...

csütörtök 15:34

Végre fellélegezhetnek az ingyenes YouTube-felhasználók is

🎉 Hadd ordítsam bele a levegőbe, hogy eddig a kép a képben funkció a legtutibb YouTube-extrák közé tartozott, de csak azok élvezhették, akik fizettek érte...

csütörtök 15:23

Az euró stabilcoin új korszaka: az AllUnity betör a Solanára

💶 A német AllUnity mostantól a Solana blokkláncon is elérhetővé tette saját, szabályozott, euróalapú tokenjét, az EURAU-t...

csütörtök 15:14

Tényleg ez az első okos csillagásztávcső? Kipróbáltuk a ZWO Seestar S30 Pro-t

🔬 A ZWO Seestar S30 Pro új szintre emeli az amatőr csillagászatot: a könnyű, egykezes okostávcsővel már egy kertvárosi ház teraszáról is lélegzetelállító képeket lehet készíteni távoli galaxisokról vagy ködökről, akár kezdőként is...

csütörtök 15:01

Az Xbox Japánban gyakorlatilag eltűnt – a boltok sem tartják

A japán játékfejlesztők nehéz helyzetbe kerültek: a kisebb stúdióknak nem éri meg Xboxra is fejleszteni, mivel a kereslet minimális, ráadásul a konzolt már a jelentősebb üzletek sem tartják készleten...

csütörtök 14:57

Csodát tettek az anyaméhben: megmentették Cassian életét

Az orvosok szinte semmi esélyt sem láttak arra, hogy a súlyos tüdőrendellenességgel diagnosztizált magzat túlélje, de a szülők kitartó kérésére mertek vállalkozni egy egészen különleges beavatkozásra...

csütörtök 14:34

Az új bitcoin-hónap: szezonális rali, de jönnek a buktatók

Ahogy április véget ér, a bitcoin árfolyama visszafogottabbá vált, mégis számos tényező okot adhat az optimizmusra májusra...