2026. 03. 05., 06:21

Az MI, amely tudja, mikor gondolkodjon – és mikor ne

Az MI, amely tudja, mikor gondolkodjon – és mikor ne
A Microsoft új MI-modellje, a Phi-4-reasoning-vision-15B jelentősen megzavarhatja a mostani erőviszonyokat a mesterséges intelligencia világában. A rendszer 15 milliárd paramétert használ, és egyszerre képes képeket és szöveget kezelni, összetett matematikai és tudományos problémákon gondolkodni, diagramokat értelmezni, valamint grafikus felületeken eligazodni. Mindeközben töredéknyi számítási erőforrást és adatmennyiséget használ fel a vetélytársakhoz képest.

Egészen pontosan: nagy tudás, kevés adatból

A modell nagyjából 200 milliárd token multimodális adaton tanult, miközben a hasonló képességű konkurensek – például a Google vagy az OpenAI megoldásai – legalább ötször ennyit, egy billió tokent használtak fel saját modelljeik tanításához. A jelentős csökkenés masszívan csökkenti a fejlesztési költségeket és a környezeti lábnyomot: nemcsak olcsóbb a működtetés, de üzleti szempontból is vonzó, ha kevesebb erőforrással is versenyképes marad egy modell.

A kulcs nem az adatmennyiségben, hanem a minőségben és a válogatásban rejlik. A Microsoft csapata manuálisan válogatta át a különböző nyílt forrású és belső adatokat, minden adathalmaz mintáit öt-tíz percig szemlézték, javították a hibás válaszokat, és kreatív módon hasznosították a minőségi, de kérdés nélküli képeket is. A kutatók szerint meglepően sok logikai és formátumbeli hiba rejtőzik a MI-ket tanító adathalmazokban, ami az iparág egészének tanulságul szolgál.

Gondolkodj, de ne feleslegesen!

A Phi-4-reasoning-vision egyik legérdekesebb újítása az, hogy felismeri, mikor érdemes összetetten, több lépésben végiggondolni egy problémát, és mikor elég azonnal válaszolni. A nyelvi modellek világában divatossá vált a chain-of-thought (láncszerű gondolkodás) megközelítés, de képfeldolgozásnál – például feliratozásnál vagy karakterfelismerésnél – ez általában felesleges, és még ronthat is az eredményen.

A Microsoft csapata ezért vegyes modellt tanított: az adatminták 20 százalékánál explicit módon, lépésenként követhető gondolkodást vártak el, 80 százaléknál pedig gyors, közvetlen választ. Az MI így megtanulta, hogy a tudományos problémákat több lépésben érdemes elemezni, míg a percepcióalapú feladatokat röviden és hatékonyan kell kezelni.

Hatékony architektúra, olvasható képernyőképek

A modell egy úgynevezett mid-fusion architektúrát alkalmaz: a képeket egy speciális vizuális kódoló alakítja tokenekké, amelyeket aztán a nyelvi modell értelmez. A képfeldolgozást kiemelten optimalizálták: akár natív 720p-s, vagyis körülbelül 3 600 tokenes felbontású adatokkal is kimagaslóan teljesít, különösen a finom részletek felismerését igénylő feladatoknál, például felhasználói felületek elemeinek azonosításánál.

Ez lehetővé teszi, hogy például önálló szoftverügynökök asztali vagy mobil környezetekben is magabiztosan navigáljanak, felismerjék a gombokat, menüket és szövegmezőket. Fontos előnye az alacsony késleltetés és a kicsi modellméret – két alapelvárás minden interaktív MI-megoldásnál.


Gyorsabb és olcsóbb, de nem mindig a legpontosabb

A modell a saját teszteken 84,8 pontot ért el tudományos diagramoknál, 83,3-at általános képfelismerésben, 75,2-t optikai karakterfelismerésnél, 88,2-t felhasználói felületelemek összerendelésében és 54,3-at multimodális általános teszteken (MMMU). Ezek az eredmények kicsit elmaradnak a legnagyobb, több százmilliárd paraméteres versenytársakétól, de lényegesen közelebb állnak hozzájuk, mint amennyivel kevesebb erőforrásból dolgozik a rendszer.

A Microsoft minden értékelést saját maga végzett, transzparens tesztbeállításokat használva (rögzített hőmérséklet, greedy dekódolás, legfeljebb 4 096 kimeneti token). Így elkerülték a benchmarklisták gyakori trükkjeit, vállalva, hogy a nyilvános értékek néha alacsonyabbak lesznek, de azok ténylegesen mérlegelhetők és publikusan ellenőrizhetők.

A Phi-család robbanásszerű terjedése

A Phi-4-reasoning-vision-15B nem egyedül dolgozik: egy gyorsan bővülő modellcsalád része – ezek skálázhatók nyelv, vizuális feladatok, eszközre telepíthetőség, oktatási és robotikai alkalmazások terén is. Az első, 14 milliárd paraméteres Phi-4 2024 végén jelent meg, és már az is meglepően hatékony volt. Azóta elkészült a Phi-4 Reasoning Mini és a Phi Silica is, amely saját adapterrel oktatási feladatokhoz (például Kahoot! kvízek generálásához) is használható. Egy optimalizált változat a Dimensity 9400 chipen akár 800 token/másodperc sebességgel fut – elég gyors a valós idejű MI-hez okostelefonon vagy tableten.

A család legmerészebb újdonsága a Rho-Alpha, amely MI-alapú robotikai modellként természetes nyelvi utasításokat képes vezérlőjelekké fordítani kézszimulációval is rendelkező humanoidok számára, így egyesíti az érzékelést és az irányítást.

Az MI-fejlesztés új korszaka: amikor a kevesebb több

A Microsoft Phi-sorozata fordulópontot jelez az MI-iparágban. Az elmúlt két évben a “minél nagyobb, annál jobb” elve uralkodott – de a Phi-modellcsalád azt bizonyítja, hogy minőségi adatkezeléssel, okos architektúrával és átgondolt tanítási folyamatokkal is fel lehet venni a versenyt az óriásokkal. Ez mérföldkő lehet mindazoknak, akik korlátozott erőforrásokkal, olcsóbb vagy helyi MI-t szeretnének (például céges szervereken, helyi eszközökön, interaktív alkalmazásokban).

Nyílt elérhetőség, könnyű finomhangolás és részletes dokumentáció segíti majd a fejlesztőket abban, hogy saját igényeikre szabják akár helyben is futó MI-rendszereiket. Bár az óriásmodellek néhány benchmarkon továbbra is jobbak, a Phi-4-reasoning-vision lényege nem az abszolút, hanem a gyakorlati versenyképesség.

A végső kérdés: ki tudja-e majd használni a kiélezett helyzetekben a kompromisszummentes gyorsaság és a testreszabott gondolkodás előnyeit – a fejlesztők döntik el, mikor tényleg nekik kell gondolkodniuk, és mikor bízhatják mindezt az MI-re.

2025, adminboss, venturebeat.com alapján

  • Te hogyan szabályoznád, hogy az MI mikor gondolkodik összetetten és mikor gyorsan?
  • Szerinted mennyire bíznád rá az MI-re a döntéseket egy fontos helyzetben?


Legfrissebb posztok

péntek 21:56

A tűzveszély miatt ismét visszahívják a külső mobilakkukat

A Casely ismét visszahívja az 5000 mAh-s MagSafe Power Podokat, miután újabb eseteket jelentettek túlmelegedésről és tűzesetekről...

péntek 21:34

Az új Windows-frissítés ismét térdre kényszeríti a szervereket

Na most kapaszkodj, mert a legújabb áprilisi Windows-biztonsági frissítés (KB5082063) telepítése után néhány szerver szinte azonnal újraindulási körforgásba zuhan...

péntek 21:24

A Naprendszer különcei: a legfurcsább bolygók

🐼 A Naprendszer bolygói elképesztően sokfélék. Vannak óriásiak és aprók, némelyiket sűrű légkör borítja, másoknak egyáltalán nincs légkörük...

péntek 21:12

Az MI-katasztrófákért ki felel – forr a vita Illinois-ban

Érdekes felvetés, hogy Illinois állam most az MI-fejlesztők felelősségét próbálja tisztázni, ha egy technológia komoly bajt okoz...

péntek 20:56

Az ingyenes fedélzeti netnek vége, leáldozik a T‑Mobile aranykora?

🚨 A T-Mobile évekig verhetetlen volt, ha a repülőn elérhető ingyenes Wi-Fi-ről volt szó, most viszont jócskán megcsappant az előnyük...

péntek 20:47

Az atomlánc, amely új korszakot nyit az elektromos térérzékelésben

A gyenge, alacsony frekvenciájú elektromos terek pontos mérése eddig komoly kihívást jelentett, főleg a nagy, nehezen miniatürizálható eszközök és a korlátozott felbontás miatt...

péntek 20:34

Az ámbráscetek kommunikációja kísértetiesen emlékeztet a miénkre

Az ember és az ámbráscetek között első ránézésre kevés a közös vonás, elvégre 90 millió éve volt az utolsó közös ősünk...

péntek 20:23

Az antibiotikum-rezisztencia robban: szétpukkanó baktériumok szórják a géneket

A baktériumok elképesztően találékonyak tudnak lenni, amikor az életben maradásról van szó...

péntek 20:14

Az űrhajózás új korszaka: rekordok, úttörők és kihívások

🚀 Felmerül a kérdés, merre tart most az űrhajózás, miközben minden eddiginél izgalmasabb fejlemények zajlanak mind a NASA, mind a komoly magáncégek berkeiben...

péntek 20:01

A várva várt ingyenes MI-frissítés közeleg a Galaxy S25-re

🚀 A Samsung végre elérhetővé teszi azokat a mesterségesintelligencia-funkciókat, amelyeket először a Galaxy S26 modellben ismerhettünk meg – ráadásul teljesen ingyen a Galaxy S25 felhasználóinak...

péntek 19:56

A Supermicro új szörnye: 40 mag, brutális háló, letisztult ház

Jól mutatja ezt, mennyi mindent zsúfoltak bele egy viszonylag apró, de elképesztően erős szerverbe...

péntek 19:45

Az elveszett bizalom: újságírás az MI viharában

Bár egyre többen alkalmazzák a mesterséges intelligenciát a médiában, az újságíró közösségben továbbra is erős fenntartások élnek a használatával szemben...

péntek 19:34

A YouTube végre újra szólhat a háttérben az Edge Canaryvel – ingyen

Most őszintén, könyörgöm, észrevetted már, hogy a YouTube mennyire rákapcsolt, amikor pénzt akar tőled szedni?..

péntek 19:12

Az MI korában is az ember a győztes csapat kulcsa

Technológiai forradalomban élünk, ahol minden eddiginél gyorsabban haladhatnak előre a cégek – a kérdés azonban korántsem ilyen egyszerű: vajon mindenki valóban jó irányba indul-e?..

péntek 18:59

Az Anthropic veszélyes MI-je: tényleg fenyeget, vagy csak pánikkeltés?

⚠ Április elején az Anthropic bejelentette legújabb MI-modelljét, Mythos néven. A döntés, hogy a fejlesztést nem engedik szabadon a nagyközönséghez, szinte példátlannak számít a szektorban – legutóbb hasonló lépésre 2019-ben az OpenAI szánta el magát...

péntek 18:58

A bolti kávék nagy túlélőkalauza: Mit érdemes venni?

Az élelmiszerboltok polcain sorakozó kávékkal szembesülő vásárló könnyen elbizonytalanodhat: vajon nem hagy-e ki valami jobbat a jól megszokott márkák mögött?..

APP
péntek 09:12

APPok, Amik Ingyenesek MA, 4/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     PostalCal (iPhone/iPad)A Postal Employee Day Off Calendar egy egyszerű, célzott alkalmazás, amely a USPS postai dolgozók és családtagjaik számára készült...

péntek 08:52

Az óriás nyelvi modellek futtatásának új korszaka

💻 Amit látunk, az túlmutat a megszokotton: a nagyméretű nyelvi modellek (LLM-ek) üzemeltetése ma már nem csupán jó algoritmusokról szól, hanem komoly hardvertervezési és optimalizálási kérdés is lett...

péntek 08:43

Az okosóráról irányítható mobilkamera: megérkezett a Blackmagic újdonsága

A Blackmagic Camera alkalmazás iOS-re újabb szintre lépett, hiszen mostantól Apple Watchról is egyszerűen vezérelhető és monitorozható...

péntek 08:37

Az univerzum rejtett arca: fekete lyukak és titkos dimenziók

Erre utal többek között az, hogy a fekete lyukak soha nem tűnnek el teljesen, még akkor sem, ha Hawking sugárzása révén látszólag folyamatosan veszítik tömegüket...

péntek 08:29

Az új Walmart Onn 4K Pro megéri a pénzét?

Érdekes, hogy a Walmart ismét egy váratlan termékbejelentéssel borzolja a kedélyeket, most éppen az Onn 4K Pro streaming boxszal...

péntek 08:24

Az MI-alapú keresés új szintre emeli az ügyfélszolgálati ügynökök tudását

A mai digitális világban elengedhetetlen, hogy a különféle MI-ügynökök hatékonyan tudjanak keresni az információk között...

péntek 08:16

Az MI-háború új felvonása: a Claude Opus 4.7 visszaveszi a trónt

A mesterséges intelligencia fejlesztésének újabb mérföldkövéhez érkeztünk: az Anthropic piacra dobta legújabb, mindenki számára elérhető nagy nyelvi modelljét, a Claude Opus 4...

péntek 08:08

A hosszú élet titka: a rettegett „halálfehérje” nyomában

Fontos kérdés, hogy miért gyengül az immunrendszer és a vérképzés az életkor előrehaladtával...

péntek 08:01

Az északi fények tánca Amerikáig ér a Nap koronalyuka miatt

Észak-Amerika egyes részein különleges látványosság várható ezen a hétvégén: ritkán látható északi fények festik az eget, mindezt egy jelentős, a Nap légkörében, a koronában keletkezett koronalyuknak köszönhetően...

péntek 07:57

Az áttörés még várat magára: a Bitcoin újra beszakadt

A Bitcoin árfolyama csütörtök délelőtt hirtelen esett vissza, miután sorozatosan kudarcot vallott a 27,5–28 millió forintos (75 000–76 000 USD) árfolyamszint áttörésében...

péntek 07:43

Az IBM-et 6 milliárdos DEI-botrány rázza meg

Erre utal többek között az, hogy az IBM 6 milliárd forint (17 millió dollár) összegben kötött megállapodást egy, a sokszínűség, esélyegyenlőség és befogadás (DEI) programjai miatt indult vizsgálat ügyében...

péntek 07:36

Az elhízást tényleg legyőzheti egy természetes hormon?

🥗 Ami először apróságnak tűnt, most áttörésnek számít a tudósok szerint: egy természetes hormon, az FGF21 képes visszafordítani az elhízást egerekben...

péntek 07:29

A Robloxot milliárdos bírság sújtja, szigorodik a gyerekvédelem

Az egyik legnépszerűbb online játékplatform, a Roblox összesen több mint 4,4 milliárd forintot (12 millió USD) fizet, és új biztonsági intézkedéseket vezet be, miután Nevadában per elé került a gyermekvédelem hiányosságai miatt...