MA 06:21

Az MI, amely tudja, mikor gondolkodjon – és mikor ne

Az MI, amely tudja, mikor gondolkodjon – és mikor ne
A Microsoft új MI-modellje, a Phi-4-reasoning-vision-15B jelentősen megzavarhatja a mostani erőviszonyokat a mesterséges intelligencia világában. A rendszer 15 milliárd paramétert használ, és egyszerre képes képeket és szöveget kezelni, összetett matematikai és tudományos problémákon gondolkodni, diagramokat értelmezni, valamint grafikus felületeken eligazodni. Mindeközben töredéknyi számítási erőforrást és adatmennyiséget használ fel a vetélytársakhoz képest.

Egészen pontosan: nagy tudás, kevés adatból

A modell nagyjából 200 milliárd token multimodális adaton tanult, miközben a hasonló képességű konkurensek – például a Google vagy az OpenAI megoldásai – legalább ötször ennyit, egy billió tokent használtak fel saját modelljeik tanításához. A jelentős csökkenés masszívan csökkenti a fejlesztési költségeket és a környezeti lábnyomot: nemcsak olcsóbb a működtetés, de üzleti szempontból is vonzó, ha kevesebb erőforrással is versenyképes marad egy modell.

A kulcs nem az adatmennyiségben, hanem a minőségben és a válogatásban rejlik. A Microsoft csapata manuálisan válogatta át a különböző nyílt forrású és belső adatokat, minden adathalmaz mintáit öt-tíz percig szemlézték, javították a hibás válaszokat, és kreatív módon hasznosították a minőségi, de kérdés nélküli képeket is. A kutatók szerint meglepően sok logikai és formátumbeli hiba rejtőzik a MI-ket tanító adathalmazokban, ami az iparág egészének tanulságul szolgál.

Gondolkodj, de ne feleslegesen!

A Phi-4-reasoning-vision egyik legérdekesebb újítása az, hogy felismeri, mikor érdemes összetetten, több lépésben végiggondolni egy problémát, és mikor elég azonnal válaszolni. A nyelvi modellek világában divatossá vált a chain-of-thought (láncszerű gondolkodás) megközelítés, de képfeldolgozásnál – például feliratozásnál vagy karakterfelismerésnél – ez általában felesleges, és még ronthat is az eredményen.

A Microsoft csapata ezért vegyes modellt tanított: az adatminták 20 százalékánál explicit módon, lépésenként követhető gondolkodást vártak el, 80 százaléknál pedig gyors, közvetlen választ. Az MI így megtanulta, hogy a tudományos problémákat több lépésben érdemes elemezni, míg a percepcióalapú feladatokat röviden és hatékonyan kell kezelni.

Hatékony architektúra, olvasható képernyőképek

A modell egy úgynevezett mid-fusion architektúrát alkalmaz: a képeket egy speciális vizuális kódoló alakítja tokenekké, amelyeket aztán a nyelvi modell értelmez. A képfeldolgozást kiemelten optimalizálták: akár natív 720p-s, vagyis körülbelül 3 600 tokenes felbontású adatokkal is kimagaslóan teljesít, különösen a finom részletek felismerését igénylő feladatoknál, például felhasználói felületek elemeinek azonosításánál.

Ez lehetővé teszi, hogy például önálló szoftverügynökök asztali vagy mobil környezetekben is magabiztosan navigáljanak, felismerjék a gombokat, menüket és szövegmezőket. Fontos előnye az alacsony késleltetés és a kicsi modellméret – két alapelvárás minden interaktív MI-megoldásnál.


Gyorsabb és olcsóbb, de nem mindig a legpontosabb

A modell a saját teszteken 84,8 pontot ért el tudományos diagramoknál, 83,3-at általános képfelismerésben, 75,2-t optikai karakterfelismerésnél, 88,2-t felhasználói felületelemek összerendelésében és 54,3-at multimodális általános teszteken (MMMU). Ezek az eredmények kicsit elmaradnak a legnagyobb, több százmilliárd paraméteres versenytársakétól, de lényegesen közelebb állnak hozzájuk, mint amennyivel kevesebb erőforrásból dolgozik a rendszer.

A Microsoft minden értékelést saját maga végzett, transzparens tesztbeállításokat használva (rögzített hőmérséklet, greedy dekódolás, legfeljebb 4 096 kimeneti token). Így elkerülték a benchmarklisták gyakori trükkjeit, vállalva, hogy a nyilvános értékek néha alacsonyabbak lesznek, de azok ténylegesen mérlegelhetők és publikusan ellenőrizhetők.

A Phi-család robbanásszerű terjedése

A Phi-4-reasoning-vision-15B nem egyedül dolgozik: egy gyorsan bővülő modellcsalád része – ezek skálázhatók nyelv, vizuális feladatok, eszközre telepíthetőség, oktatási és robotikai alkalmazások terén is. Az első, 14 milliárd paraméteres Phi-4 2024 végén jelent meg, és már az is meglepően hatékony volt. Azóta elkészült a Phi-4 Reasoning Mini és a Phi Silica is, amely saját adapterrel oktatási feladatokhoz (például Kahoot! kvízek generálásához) is használható. Egy optimalizált változat a Dimensity 9400 chipen akár 800 token/másodperc sebességgel fut – elég gyors a valós idejű MI-hez okostelefonon vagy tableten.

A család legmerészebb újdonsága a Rho-Alpha, amely MI-alapú robotikai modellként természetes nyelvi utasításokat képes vezérlőjelekké fordítani kézszimulációval is rendelkező humanoidok számára, így egyesíti az érzékelést és az irányítást.

Az MI-fejlesztés új korszaka: amikor a kevesebb több

A Microsoft Phi-sorozata fordulópontot jelez az MI-iparágban. Az elmúlt két évben a “minél nagyobb, annál jobb” elve uralkodott – de a Phi-modellcsalád azt bizonyítja, hogy minőségi adatkezeléssel, okos architektúrával és átgondolt tanítási folyamatokkal is fel lehet venni a versenyt az óriásokkal. Ez mérföldkő lehet mindazoknak, akik korlátozott erőforrásokkal, olcsóbb vagy helyi MI-t szeretnének (például céges szervereken, helyi eszközökön, interaktív alkalmazásokban).

Nyílt elérhetőség, könnyű finomhangolás és részletes dokumentáció segíti majd a fejlesztőket abban, hogy saját igényeikre szabják akár helyben is futó MI-rendszereiket. Bár az óriásmodellek néhány benchmarkon továbbra is jobbak, a Phi-4-reasoning-vision lényege nem az abszolút, hanem a gyakorlati versenyképesség.

A végső kérdés: ki tudja-e majd használni a kiélezett helyzetekben a kompromisszummentes gyorsaság és a testreszabott gondolkodás előnyeit – a fejlesztők döntik el, mikor tényleg nekik kell gondolkodniuk, és mikor bízhatják mindezt az MI-re.

2025, adminboss, venturebeat.com alapján

  • Te hogyan szabályoznád, hogy az MI mikor gondolkodik összetetten és mikor gyorsan?
  • Szerinted mennyire bíznád rá az MI-re a döntéseket egy fontos helyzetben?


Legfrissebb posztok

MA 09:10

A bosszantó Windows 10 helyreállítási hiba végre a múlté!

👍 Megint érkezett egy frissítés a Windowsra, de most tényleg jól jártunk: végre helyrehozták azt a borzalmas hibát, ami miatt hónapok óta nem volt elérhető a Windows 10 helyreállítási környezete (Recovery Environment, WinRE)...

MA 09:01

Az AWS leállt: pánik tört ki a Közel-Kelet techvilágában

Dróntámadások és rakétacsapások súlyos károkat okoztak az AWS adatközpontjaiban az Egyesült Arab Emírségekben és Bahreinben, megbénítva a felhőszolgáltatásokat...

MA 08:55

Az igazság órája: Zuckerberg mentegeti a Metát

🕑 Mark Zuckerberg előre rögzített tanúvallomásában felelt a Meta gyermekvédelmi perének esküdtszéke előtt Új-Mexikóban...

MA 08:47

A Pentagon és az MI-óriások új fronton csapnak össze

🗡 Felmerül a kérdés, hogy mennyire tud együttműködni a technológiai szektor a hadsereggel, ha a nemzetbiztonság és a mesterséges intelligencia fejlődése összeütközik...

MA 08:37

Az óriáspapagájok bébiboomja: bogyóünnep Új-Zélandon

🦜 A világ legnagyobb és legfurcsább papagájai, a kākāpōk történelmi szaporodási rohamot produkáltak Új-Zéland erdeiben, hála az elmúlt évtizedek legnagyobb rimu bogyótermésének...

MA 08:28

Az eddigieknél is durvább a tengerszint-emelkedés – észre sem vettük?

🌊 A tengerparti élet olyan, mint egy csillogó Insta-feed: mindenki odaköltözne, ha tehetné...

MA 08:21

Az MI forradalma a genomikában: megérkezett az Evo 2 óriásmodell

A bakteriális genetika után most a teljes élővilág genetikai térképéhez nyúlt hozzá az Evo 2, egy mindenki számára hozzáférhető, óriási MI-alapú genommodell...

MA 08:01

A Google megnyirbálja a 30%-os alkalmazásbolt-jutalékot

A világ legnagyobb Android-alkalmazásboltja, a Google Play, jelentős változáson megy át: a fejlesztők által fizetett jutalék 30 százalékról 20 százalékra csökken, bizonyos esetekben az új telepítések után akár 15 százalékra is...

MA 07:56

Az újabb Meta-botrány: MI-s okosszemüvegek veszélyeztetik a bizalmas videókat

Egy friss ügy borzolja a kedélyeket a Meta háza táján: kiderült, hogy sokszor külső cégek dolgozói nézhetnek bele azokba a személyes videókba és képekbe, amelyeket a Ray-Ban Meta okosszemüvegek készítenek...

MA 07:47

Az Artemis II újra rajtol: kijavítva a Hold felé

🚀 Mindez azt jelenti, hogy szinte minden akadály elhárult a Holdra induló Artemis II rakéta útjából...

MA 07:38

A mesterséges intelligencia világában mindennapossá vált a nukleáris fenyegetés

Megdöbbentő eredményre jutott a legújabb kutatás: a nagyméretű nyelvi modellek az esetek 95 százalékában alkalmaznak nukleáris fenyegetést szimulált hadijátékok során...

MA 07:28

Az MI-adatközpontok nem falják fel a villanyszámládat, de gond marad

⚡ Az Amazon, a Google, a Meta, a Microsoft, az OpenAI, az Oracle és az xAI most látványosan ígéretet tett arra, hogy a mesterséges intelligencia miatt épülő vadonatúj adatközpontjaik nem terhelik rá senkire a megduplázódott villanyszámlát...

MA 07:20

Az egészséges táplálkozás rejtett ára: több vegyszer a tányéron?

🥗 Az utóbbi években egyre többen fordulnak a friss zöldségek és gyümölcsök felé egészségük megőrzése érdekében, de egy átfogó kutatás most arra figyelmeztet, hogy ezek az élelmiszerek nemcsak vitaminokat, hanem növényvédő szereket is nagy mennyiségben tartalmazhatnak...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     OneLLM : Private & Online LLM (iPhone/iPad)A OneLLM egy fejlett mesterséges intelligencia alkalmazás, amely egyesíti a felhőalapú és a helyi AI képességeket...

MA 07:10

Zöld utat kapott az első Bill Gates-féle atomerőmű

🧪 Erre példa, hogy a TerraPower nevű vállalat zöld utat kapott, hogy megkezdhesse első, forradalmi atomerőművének építését Wyomingban...

MA 07:02

A mesterségesintelligencia-fejlesztők lázadnak a hadicélú felhasználás ellen

Érdemes megvizsgálni, hogy egyre több technológiai szakember emeli fel a szavát a mesterséges intelligencia katonai célú felhasználásával szemben...

MA 06:55

Elrajtolt Bill Gates atomerőműve: épül a TerraPower Wyomingban

Megint történelmet írnak az amerikai energiafronton, mégpedig egy ismert arccal: Bill Gates is ott van a TerraPower mögött, amely most nekilátott Wyomingban egy új, kereskedelmi atomerőmű építésének...

MA 06:29

Az appboltok lázadása: repedezik a Google 30%-os jutaléka

💸 Az eddig megszokott 30%-os Google Play Áruház-jutalék kora véget ért. Hosszú jogi csatározások után véglegesedett az Epic és a Google közötti egyezség, amely jelentős változásokat hoz az alkalmazásbolt-piacon, főként az androidos fejlesztők számára...

MA 06:06

Történelmi események a mai napon (Március 5.)

Röviden: vérengzés Bostonban, a Vasfüggöny megnevezése és a katyni tömeggyilkosság parancsa alapjaiban formálta a 20...

szerda 18:02

Az adatlopási botrány után: tényleg minden rendben a LexisNexisnél?

Az amerikai LexisNexis, a világ egyik legnagyobb elemzőcége, nemrég elismerte, hogy adatlopás áldozatává vált, ugyanakkor azt hangsúlyozza, hogy a hackerek csak elavult, lényegtelen adatokat szereztek meg...

szerda 18:00

Az új MacBook Pro szintet lép teljesítményben és MI-ben

Az Apple bemutatta legújabb MacBook Pro modelljeit, amelyek az M5 Pro és M5 Max chipekkel érkeznek...

szerda 17:39

Az AT&T új csomagokra vált – tényleg egyszerűbb lesz a választás?

📞 Érdemes megvizsgálni, hogy a hazai AT&T-felhasználók számára ténylegesen előrelépés-e a szolgáltató most bejelentett új mobilcsomag-választéka, vagy csak újracsomagolt, jól ismert konstrukciókról van szó...

szerda 17:21

Az MI-ügynökök háborúja: a támadók lépéselőnyben

🤓 A kiberbiztonság új korszaka bontakozik ki, ahol az önállóan cselekvő mesterséges intelligencia (MI) ügynökök alapjaiban változtatják meg az erőviszonyokat...

szerda 17:02

Az Apple olcsó MacBookkal támad a diákpiacon

Végre érkezik az, amire sokan vártak: az Apple bemutatta a mindössze 599 dolláros (kb...

szerda 16:59

Az Aluminium OS berobban: a Google kettős laptopstratégiára vált

A Google közelgő laptopplatformja, az Aluminium OS, 2026-ban debütálhat, és komoly hangsúlyt helyez a modern munkafolyamatokra és a termelékenységre...

szerda 16:40

Az Antarktisz valaha teljesen jégmentes volt?

Az Antarktiszt ma gigantikus jégtakaró borítja, de ez nem volt mindig így...

szerda 16:22

Az új MacBook Neo: brutális teljesítmény, letisztult dizájn, barátibb ár

💻 Érdekes felvetés, hogy egy csúcstechnológiás Apple‑laptop végre tömegek számára is elérhetővé válik...

szerda 13:58

Az évtized francia egészségügyi adatbotránya: 15 millió beteg érintett

Egy francia egészségügyi szoftvercég, a Cegedim Santé rendszerét súlyos, célzott kibertámadás érte, amely során érzékeny betegadatok milliói kerültek veszélybe...

szerda 13:39

A nagy MI-leépítési hullám: Túléljük a gépeket?

🤖 Érdemes megvizsgálni, hogy Jack Dorsey, a Block vezérigazgatója nemrég 40%-os leépítést jelentett be, ami megrázta a technológiai világot...