Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 07:37

Az új Galaxy Z TriFold: árkatasztrófa vagy áttörés?

📤 Egy lényeges szempont, hogy a Galaxy Z TriFold minden korábbi okostelefonnál drágábbnak ígérkezik, amellyel az átlagos vásárló valaha találkozott...

MA 07:29

Az elfeledett terhességi szer újra harcba száll az agydaganatokkal

🧠 Hetven éve használnak egy terhesség alatt alkalmazott vérnyomáscsökkentőt, ám most a tudósok meglepő felfedezést tettek: a hidralazin képes egy rejtett, eddig ismeretlen gyenge pontot kihasználni az agresszív agydaganatokban is...

MA 07:22

Az OpenAI igazi ellensége nem a Google, hanem a pénz

Belső feszültségek és növekvő versenyhelyzet borzolják az OpenAI körüli kedélyeket, miközben az MI-piac egyre inkább mindent vagy semmit játszmává alakul...

MA 07:15

A Discovery űrsikló csillagászati áron költözne Houstonba

🚀 Jared Isaacman, a NASA igazgatói posztjára jelölt űrturista és vállalkozó ígéretet tett: Houstonba hozatná a legendás Discovery űrsiklót (Space Shuttle Discovery)...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Raiders Map (iPhone/iPad)A Raiders Map egy sokoldalú, mindent-egyben alkalmazás, amely interaktív térképpel, zsákmány- és anyaglistákkal, bontási útmutatóval, ellenség-dropokkal és részletes küldetésvonalakkal segíti a játékosokat...

MA 07:08

Az AWS és az Nvidia közös MI-gyárai átírják a szabályokat

🤖 Az AWS és az Nvidia most összefognak, hogy létrehozzák az úgynevezett MI-gyárakat – szupererős létesítményeket, ahol a legmodernebb hardvereket egyesítik, hogy a következő generációs MI-t kiszolgálják...

MA 07:02

Az Anthropic óriási tőzsdei debütálásra készül: megelőzheti az OpenAI-t?

🚀 Az Anthropic, a népszerű Claude chatbot fejlesztője, hatalmas tőzsdei bevezetésre készül, amelyet akár már jövőre meg is léphet...

MA 06:50

Az örök ifjúság nyomában: egérkísérlet kavarja fel a tudományt

Egy egyszerű, két gyógyszerből álló kombinációval a kutatók több mint 70%-kal meghosszabbították idős, gyenge hím egerek élettartamát, és azt is elérték, hogy az állatok mozgékonyabbá, kitartóbbá és mentálisan frissebbé váljanak...

MA 06:43

A ChatGPT világszerte leállt, és eltűntek a beszélgetések

Az OpenAI MI-alapú ChatGPT-je globálisan elérhetetlenné vált, világszerte hibaüzenetek fogadják a felhasználókat, amikor megpróbálják elérni a cseteket...

MA 06:29

Az FTC ultimátuma: törölni kell a diákok adatait

📝 Az Egyesült Államok Szövetségi Kereskedelmi Bizottsága (FTC) felszólította az iskolák számára felhőalapú technológiákat kínáló Illuminate Educationt, hogy haladéktalanul töröljön minden fölösleges diákadatot, és erősítse meg a biztonsági intézkedéseit...

MA 06:22

Az AWS és az Nvidia szövetségre lép: épül az MI-szupersztráda

Az NVIDIA és az Amazon Web Services (AWS) többgenerációs együttműködést jelentett be, amelynek keretében az NVIDIA NVLink Fusion chipleteket integrálják a jövőbeli AWS MI-szervereibe és saját fejlesztésű lapkáiba...

MA 06:16

A hatalmas osztalékgépek adják Buffett vagyonának felét

Érdekes, hogy Warren Buffett, minden idők egyik legsikeresebb befektetője, portfóliójának több mint felét három óriási, osztalékot fizető vállalatba helyezte...

MA 06:05

Történelmi események a mai napon (December 3.)

Két korszakos mérföldkő is ehhez a naphoz kötődik: megszületett az első SMS 💬, és Irán első Legfőbb Vezetője lett Khomeini 🇮🇷...

MA 06:01

Az Amazon Music rálicitál a Spotify Wrappedre

Az Amazon Music bemutatta a 2025 Delivered nevű újítását, mely a Spotify Wrapped kihívója lesz...

kedd 20:49

A Linux nagy áttörése: ugrásszerűen nő a Steam-játékosok száma

Novemberben a Linuxot használó játékosok aránya új rekordot ért el a Steamen: elérte a 3,2%-ot, ami 0,15%-os növekedést jelent az előző hónaphoz képest...

kedd 20:34

Az indiai Nagy Testvér mindent lát: nyilvántartanak minden okostelefont

👀 Megvizsgáljuk, hogyan tervezi India feltérképezni és nyilvántartani az ország összes okostelefonját, legyen szó új vagy használt készülékről...

kedd 20:16

Jön a szigor: felezik az ingyenes tanúsítványok érvényességét

A Let’s Encrypt bejelentette, hogy 2028-ig felére, azaz 90 napról 45 napra rövidíti a kibocsátott tanúsítványainak érvényességi idejét...

kedd 20:03

Az Amazon 36 millióért engedi személyre szabni a saját MI-modelleket

💰 Különösen említést érdemel, hogy az Amazon Web Services (AWS) mostantól lehetővé teszi a felhőalapú ügyfelek számára, hogy már a betanítási folyamat közben is testre szabják az MI-modelleket, saját adataikat beépítve...

kedd 19:34

A MI jövőjének kulcsa az igazság, a szépség és a kíváncsiság?

Elon Musk ismét figyelmeztetett az MI jelentette veszélyekre, kiemelve, hogy a technológia gyors fejlődése miatt a jövő nem feltétlenül lesz pozitív...