Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

csütörtök 12:25

A 6 legbénább szexuális célzás a marketing történelemben

A szex használata a reklámban egyidős annak létrejöttével. Ezer százalék, hogy az első reklámban ami az első kereket reklámozta, rögtön kettőt raktak egymás mellé, hogy egy pár cickóra hasonlítson...

kedd 14:10

Egy könyvvel az ellenség szívéhez – Franklin megdöbbentő módszere

Egy nap eszébe jutott valami merész és szokatlan. Tudta, hogy ellenfelének könyvtárában számos ritka és értékes kötet található, melyekre nagy becsben tartott, és az is köztudott volt, hogy igazi büszkesége egyik különleges könyv volt, amelyet csak kevesen olvashattak...

kedd 20:52

Az utolsó neandervölgyi: A kihalás titka a génhígulásban?

Több évtizedes találgatás övezi, miért tűntek el a neandervölgyiek nagyjából 40 ezer éve...

kedd 20:42

Az MI ereje is kevés volt, egy CPU-csúcs buktatta le a zsarolóvírust

💣 Egy heves CPU-kiugrás csak ritkán jelent jót – de egy vállalati szerver kapacitásának hirtelen túlterhelődése most egy egész céget mentett meg a katasztrófától...

kedd 20:32

Az új üstökös titokzatos pályán közelít a Földhöz

Egy frissen felfedezett üstökös, a C/2025 V1 (Borisov), amelyet néhányan tévesen a hírhedt 3I/ATLAS-szal hoznak összefüggésbe, várhatóan november 11-én halad el legközelebb bolygónk mellett...

kedd 20:21

Az űripar új kedvence: Rocket Lab szárnyal rekordbevételekkel

🚀 A Rocket Lab részvénye 3%-kal erősödött, miután a vállalat története eddigi legjobb negyedéves bevételét jelentette...

kedd 20:11

CoreWeave: Az MI-aranyláz sötét oldala – brutális profit és óriási adósság

A CoreWeave az idei harmadik negyedévben 134%-os bevételnövekedést ért el, 490 milliárd forintnak (1,36 milliárd USD) megfelelő bevétellel, jócskán túlszárnyalva az elemzői várakozásokat...

kedd 20:00

Az MI-vel felturbózott Bixby mostantól a Samsung tévéken is elérhető

A Samsung legújabb fejlesztése, a generatív MI-alapú Bixby asszisztens, már a tévéken is bemutatkozott...

kedd 19:53

A legfurcsább ügyvédi kifogások, amikor az MI kudarcot vall

🙃 Az amerikai bíróságokat egyre gyakrabban árasztják el a hamis, MI által generált jogesetekre való hivatkozások, amit egyes bírók már járványnak tartanak...

kedd 19:41

Az SAP súlyos biztonsági hibákat javított, most érdemes frissíteni

Az SAP kiadta novemberi biztonsági frissítéseit, amelyek több súlyos sérülékenységet orvosolnak...

kedd 19:32

Az óriási szélturbina minden eddiginél nagyobb teljesítményt nyújt

A kínai partoknál hamarosan telepítik a világ legnagyobb tengeri szélturbináját, amely két rotorral és gigantikus lapátokkal szinte megduplázza az eddigi rekordokat...

kedd 19:21

Az új Wyze mérleg minden porcikádat kielemzi

A Wyze bemutatta eddigi legpontosabb, egyben legdrágább okosmérlegét, az Ultra BodyScant...

kedd 19:12

Az első mikrohullámú számítógépes chip forradalmasíthat mindent

⚡ Egy új típusú mikrochip született, amely hagyományos digitális áramkörök helyett mikrohullámokat használ, és így villámgyors működésre, valamint alacsony energiafogyasztásra képes...

kedd 19:02

A Meta MI-zsenije saját céget alapít – káosz a háttérben

Az MI világában igazi földindulást okozhat, hogy Yann LeCun, a Meta vezető MI-kutatója és a New York-i Egyetem professzora a közeljövőben távozik, hogy saját startupot indítson...

kedd 18:51

Az új Gemini for Home végre okos otthonokat ígér

Két hete elindult a Google Gemini for Home hangasszisztens, és a felhasználók első tapasztalatai alapján tényleg átalakítja az okosotthonokkal való kommunikációt...

kedd 18:42

A Neutron rakéta bemutatóját 2026 nyarára halasztották

A Rocket Lab közepes teherbírású rakétája, a Neutron várhatóan csak 2026 nyarán állhat először rajthoz, miután a cég vezérigazgatója, Peter Beck bejelentette: a fejlesztést szándékosan nem siettetik, elsődleges a megbízhatóság...

kedd 18:34

A Samsung Q8F QLED modern tévé, de drága kompromisszumokat jelent

A Samsung Q8F QLED TV a dél-koreai gyártó legújabb középkategóriás zászlóshajója, amely látványos, karcsú dizájnnal és a felhasználóbarát Tizen 9...

kedd 18:22

Az MI-csevegéseket oldalsó támadás fenyegeti

🕵 A Microsoft kutatói új, aggasztó sérülékenységre hívták fel a figyelmet: egy új típusú oldalsó csatornás támadás lehetővé teszi a támadók számára, hogy megtippeljék, miről beszélgetünk a nagy nyelvi modellekkel (MI-kkel), még akkor is, ha maga a tartalom titkosítva van...

kedd 17:01

Az új kínai csúcs: szinte megállt a CO2-kibocsátás

Kínában az elmúlt másfél évben stagnált vagy csökkent a szén-dioxid-kibocsátás, ami erősíti a reményt, hogy a világ legnagyobb szennyezője a vártnál jóval korábban elérte kibocsátási csúcsát...