MA 06:21

Az MI, amely tudja, mikor gondolkodjon – és mikor ne

Az MI, amely tudja, mikor gondolkodjon – és mikor ne
A Microsoft új MI-modellje, a Phi-4-reasoning-vision-15B jelentősen megzavarhatja a mostani erőviszonyokat a mesterséges intelligencia világában. A rendszer 15 milliárd paramétert használ, és egyszerre képes képeket és szöveget kezelni, összetett matematikai és tudományos problémákon gondolkodni, diagramokat értelmezni, valamint grafikus felületeken eligazodni. Mindeközben töredéknyi számítási erőforrást és adatmennyiséget használ fel a vetélytársakhoz képest.

Egészen pontosan: nagy tudás, kevés adatból

A modell nagyjából 200 milliárd token multimodális adaton tanult, miközben a hasonló képességű konkurensek – például a Google vagy az OpenAI megoldásai – legalább ötször ennyit, egy billió tokent használtak fel saját modelljeik tanításához. A jelentős csökkenés masszívan csökkenti a fejlesztési költségeket és a környezeti lábnyomot: nemcsak olcsóbb a működtetés, de üzleti szempontból is vonzó, ha kevesebb erőforrással is versenyképes marad egy modell.

A kulcs nem az adatmennyiségben, hanem a minőségben és a válogatásban rejlik. A Microsoft csapata manuálisan válogatta át a különböző nyílt forrású és belső adatokat, minden adathalmaz mintáit öt-tíz percig szemlézték, javították a hibás válaszokat, és kreatív módon hasznosították a minőségi, de kérdés nélküli képeket is. A kutatók szerint meglepően sok logikai és formátumbeli hiba rejtőzik a MI-ket tanító adathalmazokban, ami az iparág egészének tanulságul szolgál.

Gondolkodj, de ne feleslegesen!

A Phi-4-reasoning-vision egyik legérdekesebb újítása az, hogy felismeri, mikor érdemes összetetten, több lépésben végiggondolni egy problémát, és mikor elég azonnal válaszolni. A nyelvi modellek világában divatossá vált a chain-of-thought (láncszerű gondolkodás) megközelítés, de képfeldolgozásnál – például feliratozásnál vagy karakterfelismerésnél – ez általában felesleges, és még ronthat is az eredményen.

A Microsoft csapata ezért vegyes modellt tanított: az adatminták 20 százalékánál explicit módon, lépésenként követhető gondolkodást vártak el, 80 százaléknál pedig gyors, közvetlen választ. Az MI így megtanulta, hogy a tudományos problémákat több lépésben érdemes elemezni, míg a percepcióalapú feladatokat röviden és hatékonyan kell kezelni.

Hatékony architektúra, olvasható képernyőképek

A modell egy úgynevezett mid-fusion architektúrát alkalmaz: a képeket egy speciális vizuális kódoló alakítja tokenekké, amelyeket aztán a nyelvi modell értelmez. A képfeldolgozást kiemelten optimalizálták: akár natív 720p-s, vagyis körülbelül 3 600 tokenes felbontású adatokkal is kimagaslóan teljesít, különösen a finom részletek felismerését igénylő feladatoknál, például felhasználói felületek elemeinek azonosításánál.

Ez lehetővé teszi, hogy például önálló szoftverügynökök asztali vagy mobil környezetekben is magabiztosan navigáljanak, felismerjék a gombokat, menüket és szövegmezőket. Fontos előnye az alacsony késleltetés és a kicsi modellméret – két alapelvárás minden interaktív MI-megoldásnál.


Gyorsabb és olcsóbb, de nem mindig a legpontosabb

A modell a saját teszteken 84,8 pontot ért el tudományos diagramoknál, 83,3-at általános képfelismerésben, 75,2-t optikai karakterfelismerésnél, 88,2-t felhasználói felületelemek összerendelésében és 54,3-at multimodális általános teszteken (MMMU). Ezek az eredmények kicsit elmaradnak a legnagyobb, több százmilliárd paraméteres versenytársakétól, de lényegesen közelebb állnak hozzájuk, mint amennyivel kevesebb erőforrásból dolgozik a rendszer.

A Microsoft minden értékelést saját maga végzett, transzparens tesztbeállításokat használva (rögzített hőmérséklet, greedy dekódolás, legfeljebb 4 096 kimeneti token). Így elkerülték a benchmarklisták gyakori trükkjeit, vállalva, hogy a nyilvános értékek néha alacsonyabbak lesznek, de azok ténylegesen mérlegelhetők és publikusan ellenőrizhetők.

A Phi-család robbanásszerű terjedése

A Phi-4-reasoning-vision-15B nem egyedül dolgozik: egy gyorsan bővülő modellcsalád része – ezek skálázhatók nyelv, vizuális feladatok, eszközre telepíthetőség, oktatási és robotikai alkalmazások terén is. Az első, 14 milliárd paraméteres Phi-4 2024 végén jelent meg, és már az is meglepően hatékony volt. Azóta elkészült a Phi-4 Reasoning Mini és a Phi Silica is, amely saját adapterrel oktatási feladatokhoz (például Kahoot! kvízek generálásához) is használható. Egy optimalizált változat a Dimensity 9400 chipen akár 800 token/másodperc sebességgel fut – elég gyors a valós idejű MI-hez okostelefonon vagy tableten.

A család legmerészebb újdonsága a Rho-Alpha, amely MI-alapú robotikai modellként természetes nyelvi utasításokat képes vezérlőjelekké fordítani kézszimulációval is rendelkező humanoidok számára, így egyesíti az érzékelést és az irányítást.

Az MI-fejlesztés új korszaka: amikor a kevesebb több

A Microsoft Phi-sorozata fordulópontot jelez az MI-iparágban. Az elmúlt két évben a “minél nagyobb, annál jobb” elve uralkodott – de a Phi-modellcsalád azt bizonyítja, hogy minőségi adatkezeléssel, okos architektúrával és átgondolt tanítási folyamatokkal is fel lehet venni a versenyt az óriásokkal. Ez mérföldkő lehet mindazoknak, akik korlátozott erőforrásokkal, olcsóbb vagy helyi MI-t szeretnének (például céges szervereken, helyi eszközökön, interaktív alkalmazásokban).

Nyílt elérhetőség, könnyű finomhangolás és részletes dokumentáció segíti majd a fejlesztőket abban, hogy saját igényeikre szabják akár helyben is futó MI-rendszereiket. Bár az óriásmodellek néhány benchmarkon továbbra is jobbak, a Phi-4-reasoning-vision lényege nem az abszolút, hanem a gyakorlati versenyképesség.

A végső kérdés: ki tudja-e majd használni a kiélezett helyzetekben a kompromisszummentes gyorsaság és a testreszabott gondolkodás előnyeit – a fejlesztők döntik el, mikor tényleg nekik kell gondolkodniuk, és mikor bízhatják mindezt az MI-re.

2025, adminboss, venturebeat.com alapján

  • Te hogyan szabályoznád, hogy az MI mikor gondolkodik összetetten és mikor gyorsan?
  • Szerinted mennyire bíznád rá az MI-re a döntéseket egy fontos helyzetben?


Legfrissebb posztok

MA 07:47

Az Artemis II újra rajtol: kijavítva a Hold felé

🚀 Mindez azt jelenti, hogy szinte minden akadály elhárult a Holdra induló Artemis II rakéta útjából...

MA 07:38

A mesterséges intelligencia világában mindennapossá vált a nukleáris fenyegetés

Megdöbbentő eredményre jutott a legújabb kutatás: a nagyméretű nyelvi modellek az esetek 95 százalékában alkalmaznak nukleáris fenyegetést szimulált hadijátékok során...

MA 07:28

Az MI-adatközpontok nem falják fel a villanyszámládat, de gond marad

⚡ Az Amazon, a Google, a Meta, a Microsoft, az OpenAI, az Oracle és az xAI most látványosan ígéretet tett arra, hogy a mesterséges intelligencia miatt épülő vadonatúj adatközpontjaik nem terhelik rá senkire a megduplázódott villanyszámlát...

MA 07:20

Az egészséges táplálkozás rejtett ára: több vegyszer a tányéron?

🥗 Az utóbbi években egyre többen fordulnak a friss zöldségek és gyümölcsök felé egészségük megőrzése érdekében, de egy átfogó kutatás most arra figyelmeztet, hogy ezek az élelmiszerek nemcsak vitaminokat, hanem növényvédő szereket is nagy mennyiségben tartalmazhatnak...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     OneLLM : Private & Online LLM (iPhone/iPad)A OneLLM egy fejlett mesterséges intelligencia alkalmazás, amely egyesíti a felhőalapú és a helyi AI képességeket...

MA 07:10

Zöld utat kapott az első Bill Gates-féle atomerőmű

🧪 Erre példa, hogy a TerraPower nevű vállalat zöld utat kapott, hogy megkezdhesse első, forradalmi atomerőművének építését Wyomingban...

MA 07:02

A mesterségesintelligencia-fejlesztők lázadnak a hadicélú felhasználás ellen

Érdemes megvizsgálni, hogy egyre több technológiai szakember emeli fel a szavát a mesterséges intelligencia katonai célú felhasználásával szemben...

MA 06:55

Elrajtolt Bill Gates atomerőműve: épül a TerraPower Wyomingban

Megint történelmet írnak az amerikai energiafronton, mégpedig egy ismert arccal: Bill Gates is ott van a TerraPower mögött, amely most nekilátott Wyomingban egy új, kereskedelmi atomerőmű építésének...

MA 06:29

Az appboltok lázadása: repedezik a Google 30%-os jutaléka

💸 Az eddig megszokott 30%-os Google Play Áruház-jutalék kora véget ért. Hosszú jogi csatározások után véglegesedett az Epic és a Google közötti egyezség, amely jelentős változásokat hoz az alkalmazásbolt-piacon, főként az androidos fejlesztők számára...

MA 06:06

Történelmi események a mai napon (Március 5.)

Röviden: vérengzés Bostonban, a Vasfüggöny megnevezése és a katyni tömeggyilkosság parancsa alapjaiban formálta a 20...

szerda 18:02

Az adatlopási botrány után: tényleg minden rendben a LexisNexisnél?

Az amerikai LexisNexis, a világ egyik legnagyobb elemzőcége, nemrég elismerte, hogy adatlopás áldozatává vált, ugyanakkor azt hangsúlyozza, hogy a hackerek csak elavult, lényegtelen adatokat szereztek meg...

szerda 18:00

Az új MacBook Pro szintet lép teljesítményben és MI-ben

Az Apple bemutatta legújabb MacBook Pro modelljeit, amelyek az M5 Pro és M5 Max chipekkel érkeznek...

szerda 17:39

Az AT&T új csomagokra vált – tényleg egyszerűbb lesz a választás?

📞 Érdemes megvizsgálni, hogy a hazai AT&T-felhasználók számára ténylegesen előrelépés-e a szolgáltató most bejelentett új mobilcsomag-választéka, vagy csak újracsomagolt, jól ismert konstrukciókról van szó...

szerda 17:21

Az MI-ügynökök háborúja: a támadók lépéselőnyben

🤓 A kiberbiztonság új korszaka bontakozik ki, ahol az önállóan cselekvő mesterséges intelligencia (MI) ügynökök alapjaiban változtatják meg az erőviszonyokat...

szerda 17:02

Az Apple olcsó MacBookkal támad a diákpiacon

Végre érkezik az, amire sokan vártak: az Apple bemutatta a mindössze 599 dolláros (kb...

szerda 16:59

Az Aluminium OS berobban: a Google kettős laptopstratégiára vált

A Google közelgő laptopplatformja, az Aluminium OS, 2026-ban debütálhat, és komoly hangsúlyt helyez a modern munkafolyamatokra és a termelékenységre...

szerda 16:40

Az Antarktisz valaha teljesen jégmentes volt?

Az Antarktiszt ma gigantikus jégtakaró borítja, de ez nem volt mindig így...

szerda 16:22

Az új MacBook Neo: brutális teljesítmény, letisztult dizájn, barátibb ár

💻 Érdekes felvetés, hogy egy csúcstechnológiás Apple‑laptop végre tömegek számára is elérhetővé válik...

szerda 13:58

Az évtized francia egészségügyi adatbotránya: 15 millió beteg érintett

Egy francia egészségügyi szoftvercég, a Cegedim Santé rendszerét súlyos, célzott kibertámadás érte, amely során érzékeny betegadatok milliói kerültek veszélybe...

szerda 13:39

A nagy MI-leépítési hullám: Túléljük a gépeket?

🤖 Érdemes megvizsgálni, hogy Jack Dorsey, a Block vezérigazgatója nemrég 40%-os leépítést jelentett be, ami megrázta a technológiai világot...

szerda 13:21

A sóalapú akkuk forradalma: Végre bírják a telet az elektromos autók?

Továbbá a téli reggelek egyik legnagyobb bosszúsága az elektromos autók tulajdonosai számára, amikor hirtelen, drasztikusan lecsökken járművük hatótávolsága...

szerda 11:21

Az Apple M5 Pro és Max: megérkezett az igazi áttörés

Az Apple legújabb fejlesztése, az M5 Pro és M5 Max, új szintre emeli a MacBook Pro teljesítményét: a világ jelenlegi legfejlettebb professzionális laptopprocesszorai mutatkoznak be...

szerda 11:02

Az AI-aranyláz nagy nyertesei: három techóriás kaszál világszerte

Februárban elképesztő mennyiségű kockázati tőke landolt a startupoknál, összesen mintegy 68 ezermilliárd forint (189 milliárd USD)...

szerda 10:55

A hackerek lecsapnak az OAuth hibáira

🔏 Érdekes felvetés, hogy a legújabb kibertámadások éppen egy régóta elfogadott, megbízhatónak vélt technológiai szabvány, az OAuth hibakezelésében rejlő hiányosságokat használják ki...

szerda 10:46

Az MI-unikornisok játszmája: kétféle ár ugyanazért a startupért

A legmenőbb MI-startupok újabb pénzgyűjtési trükköt vetnek be, hogy mindenki őket tartsa a piac igazi nagyágyúinak...

szerda 10:29

A MI kiszorítja a fiatalokat, a tapasztaltak maradnak nyeregben

Többek között a Z-generációs fiatalok vannak leginkább veszélyben, miközben a tapasztaltabb dolgozók egyre magabiztosabbak a munkaerőpiacon...

szerda 10:19

Az iPhone-hackelés aranykora: állami kiberfegyverek szabadultak el

🔑 Lényeges szempont, hogy az iPhone-ok védelmére fejlesztett rendszerek most komoly veszélyben vannak...

szerda 10:01

A titkos agy, amely Csernobilt irányította: a SKALA

A csernobili atomerőmű irányítóterme több volt egyszerű kapcsolótáblánál: a rejtélyes SKALA rendszer volt a reaktor igazi agya...

szerda 09:37

Az injektálható mini-máj véget vethet a szervhiány válságának?

Felmerül a kérdés, hogy javítható-e a májelégtelenség invazív műtét nélkül, amikor elkeserítően hosszú a várakozás a szervtranszplantációs listán...