2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 21:56

A tűzveszély miatt ismét visszahívják a külső mobilakkukat

A Casely ismét visszahívja az 5000 mAh-s MagSafe Power Podokat, miután újabb eseteket jelentettek túlmelegedésről és tűzesetekről...

MA 21:34

Az új Windows-frissítés ismét térdre kényszeríti a szervereket

Na most kapaszkodj, mert a legújabb áprilisi Windows-biztonsági frissítés (KB5082063) telepítése után néhány szerver szinte azonnal újraindulási körforgásba zuhan...

MA 21:24

A Naprendszer különcei: a legfurcsább bolygók

🐼 A Naprendszer bolygói elképesztően sokfélék. Vannak óriásiak és aprók, némelyiket sűrű légkör borítja, másoknak egyáltalán nincs légkörük...

MA 21:12

Az MI-katasztrófákért ki felel – forr a vita Illinois-ban

Érdekes felvetés, hogy Illinois állam most az MI-fejlesztők felelősségét próbálja tisztázni, ha egy technológia komoly bajt okoz...

MA 20:56

Az ingyenes fedélzeti netnek vége, leáldozik a T‑Mobile aranykora?

🚨 A T-Mobile évekig verhetetlen volt, ha a repülőn elérhető ingyenes Wi-Fi-ről volt szó, most viszont jócskán megcsappant az előnyük...

MA 20:47

Az atomlánc, amely új korszakot nyit az elektromos térérzékelésben

A gyenge, alacsony frekvenciájú elektromos terek pontos mérése eddig komoly kihívást jelentett, főleg a nagy, nehezen miniatürizálható eszközök és a korlátozott felbontás miatt...

MA 20:34

Az ámbráscetek kommunikációja kísértetiesen emlékeztet a miénkre

Az ember és az ámbráscetek között első ránézésre kevés a közös vonás, elvégre 90 millió éve volt az utolsó közös ősünk...

MA 20:23

Az antibiotikum-rezisztencia robban: szétpukkanó baktériumok szórják a géneket

A baktériumok elképesztően találékonyak tudnak lenni, amikor az életben maradásról van szó...

MA 20:14

Az űrhajózás új korszaka: rekordok, úttörők és kihívások

🚀 Felmerül a kérdés, merre tart most az űrhajózás, miközben minden eddiginél izgalmasabb fejlemények zajlanak mind a NASA, mind a komoly magáncégek berkeiben...

MA 20:01

A várva várt ingyenes MI-frissítés közeleg a Galaxy S25-re

🚀 A Samsung végre elérhetővé teszi azokat a mesterségesintelligencia-funkciókat, amelyeket először a Galaxy S26 modellben ismerhettünk meg – ráadásul teljesen ingyen a Galaxy S25 felhasználóinak...

MA 19:56

A Supermicro új szörnye: 40 mag, brutális háló, letisztult ház

Jól mutatja ezt, mennyi mindent zsúfoltak bele egy viszonylag apró, de elképesztően erős szerverbe...

MA 19:45

Az elveszett bizalom: újságírás az MI viharában

Bár egyre többen alkalmazzák a mesterséges intelligenciát a médiában, az újságíró közösségben továbbra is erős fenntartások élnek a használatával szemben...

MA 19:34

A YouTube végre újra szólhat a háttérben az Edge Canaryvel – ingyen

Most őszintén, könyörgöm, észrevetted már, hogy a YouTube mennyire rákapcsolt, amikor pénzt akar tőled szedni?..

MA 19:12

Az MI korában is az ember a győztes csapat kulcsa

Technológiai forradalomban élünk, ahol minden eddiginél gyorsabban haladhatnak előre a cégek – a kérdés azonban korántsem ilyen egyszerű: vajon mindenki valóban jó irányba indul-e?..

MA 18:59

Az Anthropic veszélyes MI-je: tényleg fenyeget, vagy csak pánikkeltés?

⚠ Április elején az Anthropic bejelentette legújabb MI-modelljét, Mythos néven. A döntés, hogy a fejlesztést nem engedik szabadon a nagyközönséghez, szinte példátlannak számít a szektorban – legutóbb hasonló lépésre 2019-ben az OpenAI szánta el magát...

MA 18:58

A bolti kávék nagy túlélőkalauza: Mit érdemes venni?

Az élelmiszerboltok polcain sorakozó kávékkal szembesülő vásárló könnyen elbizonytalanodhat: vajon nem hagy-e ki valami jobbat a jól megszokott márkák mögött?..

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     PostalCal (iPhone/iPad)A Postal Employee Day Off Calendar egy egyszerű, célzott alkalmazás, amely a USPS postai dolgozók és családtagjaik számára készült...

MA 08:52

Az óriás nyelvi modellek futtatásának új korszaka

💻 Amit látunk, az túlmutat a megszokotton: a nagyméretű nyelvi modellek (LLM-ek) üzemeltetése ma már nem csupán jó algoritmusokról szól, hanem komoly hardvertervezési és optimalizálási kérdés is lett...

MA 08:43

Az okosóráról irányítható mobilkamera: megérkezett a Blackmagic újdonsága

A Blackmagic Camera alkalmazás iOS-re újabb szintre lépett, hiszen mostantól Apple Watchról is egyszerűen vezérelhető és monitorozható...

MA 08:37

Az univerzum rejtett arca: fekete lyukak és titkos dimenziók

Erre utal többek között az, hogy a fekete lyukak soha nem tűnnek el teljesen, még akkor sem, ha Hawking sugárzása révén látszólag folyamatosan veszítik tömegüket...

MA 08:29

Az új Walmart Onn 4K Pro megéri a pénzét?

Érdekes, hogy a Walmart ismét egy váratlan termékbejelentéssel borzolja a kedélyeket, most éppen az Onn 4K Pro streaming boxszal...

MA 08:24

Az MI-alapú keresés új szintre emeli az ügyfélszolgálati ügynökök tudását

A mai digitális világban elengedhetetlen, hogy a különféle MI-ügynökök hatékonyan tudjanak keresni az információk között...

MA 08:16

Az MI-háború új felvonása: a Claude Opus 4.7 visszaveszi a trónt

A mesterséges intelligencia fejlesztésének újabb mérföldkövéhez érkeztünk: az Anthropic piacra dobta legújabb, mindenki számára elérhető nagy nyelvi modelljét, a Claude Opus 4...

MA 08:08

A hosszú élet titka: a rettegett „halálfehérje” nyomában

Fontos kérdés, hogy miért gyengül az immunrendszer és a vérképzés az életkor előrehaladtával...

MA 08:01

Az északi fények tánca Amerikáig ér a Nap koronalyuka miatt

Észak-Amerika egyes részein különleges látványosság várható ezen a hétvégén: ritkán látható északi fények festik az eget, mindezt egy jelentős, a Nap légkörében, a koronában keletkezett koronalyuknak köszönhetően...

MA 07:57

Az áttörés még várat magára: a Bitcoin újra beszakadt

A Bitcoin árfolyama csütörtök délelőtt hirtelen esett vissza, miután sorozatosan kudarcot vallott a 27,5–28 millió forintos (75 000–76 000 USD) árfolyamszint áttörésében...

MA 07:43

Az IBM-et 6 milliárdos DEI-botrány rázza meg

Erre utal többek között az, hogy az IBM 6 milliárd forint (17 millió dollár) összegben kötött megállapodást egy, a sokszínűség, esélyegyenlőség és befogadás (DEI) programjai miatt indult vizsgálat ügyében...

MA 07:36

Az elhízást tényleg legyőzheti egy természetes hormon?

🥗 Ami először apróságnak tűnt, most áttörésnek számít a tudósok szerint: egy természetes hormon, az FGF21 képes visszafordítani az elhízást egerekben...

MA 07:29

A Robloxot milliárdos bírság sújtja, szigorodik a gyerekvédelem

Az egyik legnépszerűbb online játékplatform, a Roblox összesen több mint 4,4 milliárd forintot (12 millió USD) fizet, és új biztonsági intézkedéseket vezet be, miután Nevadában per elé került a gyermekvédelem hiányosságai miatt...