Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 06:05

Történelmi események a mai napon (December 19.)

Erre a napra jutott a Jamestown felé induló első angol gyarmatosító hajóraj, a hongkongi szuverenitásról szóló kínai–brit megállapodás aláírása, és Bill Clinton amerikai elnök alkotmányos felelősségre vonása is...

MA 06:02

A Lovable az MI-kódolás új sztárja: ömlik a pénz

A svéd, Lovable nevű „vibe coding” startup újabb hatalmas befektetést húzott be: 330 millió dollár (kb...

csütörtök 20:50

A Kia és a Hyundai újabb blamája: vagyonokba kerülnek a lopások

🚗 A Kia és a Hyundai ingyenes javítási programba kezd, hogy visszaszorítsa a „Kia Boyz” néven elhíresült autólopásokat, amelyek miatt világszerte több millió autótulajdonos került veszélybe...

csütörtök 20:34

Az NIS2: Szorul a hurok a jelszavak és az MFA körül

🔒 Kikre vonatkozik az NIS2? Az uniós NIS2 irányelv 2023 januárjában váltotta fel az eredeti NIS-t, a tagállamoknak pedig 2024 októberéig kellett beépíteniük saját jogrendjükbe...

csütörtök 20:18

Az amerikai Nyugat tűzoltási gyakorlata időzített bombává vált

🔥 Érdemes megvizsgálni, hogy az Egyesült Államok nyugati részén évtizedeken át tartó tűzoltás mára komoly problémát okozott...

csütörtök 20:01

Az Apple megnyitja Japánban az App Store-t – kényszerből

Az Apple kénytelen megnyitni az App Store-t a verseny számára Japánban, mivel a most életbe lépett Mobil szoftver versenytörvénye (Mobile Software Competition Act, MSCA) így rendelkezik...

csütörtök 19:49

Az amerikai hatóságok lecsaptak az E-Note kriptotőzsdére

Az Egyesült Államok hatóságai lefoglalták az E-Note nevű kriptotőzsde szervereit és weboldalait, miután kiderült, hogy több mint 70 millió dollárnak (kb...

csütörtök 19:33

Az űriglu: a jég lehet a marsi túlélés kulcsa

❄ Amikor emberek végre eljuthatnak a Marsra, szükségük lesz tartós védelmet nyújtó otthonokra a bolygó kegyetlen felszínén...

csütörtök 19:17

A MI-chipháború: Kína titkos Manhattan-terve

Kínai tudósok titkos, szigorúan őrzött laboratóriumban, Sencsenben egy fejlesztésen dolgoznak, amelyet az USA évek óta próbál minden eszközzel – exportkorlátozásokkal, szankciókkal – megakadályozni...

csütörtök 18:50

Az új Meetup app tényleg forradalmasítja az ismerkedést?

A pandémia után új erőre kapott a Meetup, különösen a Z generáció és a fiatalabb millenniálok körében, akik már a felhasználók 40 százalékát teszik ki...

csütörtök 18:34

Az űrszonda sosem látott képet küldött egy csillagközi üstökösről

A NASA Europa Clipper űrszondája páratlan rálátást szerzett a 3I/ATLAS nevű csillagközi üstökösre, amely júliusban harmadikként érkezett Naprendszerünkbe...

csütörtök 18:18

Az új permetezhető bevonat lehet a gazdák mentőöve

💧 A Kaliforniai Egyetem mérnökei új, permetezhető antibakteriális polimert fejlesztettek ki, amely képes megvédeni a növényeket a fertőzésektől és a szárazságtól...

csütörtök 17:33

A HPE sürgősen foltozza a OneView egyik legveszélyesebb hibáját

⚠ A Hewlett Packard Enterprise kritikus biztonsági hibát javított a népszerű OneView szoftverében, amely lehetővé tette, hogy támadók távolról, jogosultság nélkül futtassanak kódot...

csütörtök 17:17

A Facebook új húzása: mostantól fizetős a linkmegosztás

A Meta újítása értelmében a Facebookon mostantól csak azok oszthatnak meg korlátlanul linket, akik előfizetnek a Meta Verified szolgáltatásra, amely havonta 5600 forintba kerül...

csütörtök 17:02

Az agyunk titkai: 2025 tíz legmegdöbbentőbb felfedezése

Az emberi agy még mindig az univerzum egyik legnagyobb rejtélye: több mint 86 milliárd idegsejtből és 100 billió szinapszisból álló, elképesztően összetett rendszer...

csütörtök 16:49

A főnökök besokalltak az MI-től, újra embereket vesznek fel

👤 Bár a cégek vezetőinek 94%-a szerint elkerülhetetlen az MI használata a munkahelyen, sokan közülük még mindig kellemetlenül érzik magukat miatta...

csütörtök 16:17

Az Apple enged: jönnek a külső appboltok Japánban

📦 Az Apple jelentős változásokat vezet be Japánban: mostantól külső alkalmazásboltokból is lehet iOS-alkalmazásokat letölteni, és alternatív fizetési módokat is engedélyez a rendszerben...

csütörtök 15:50

Az űrben tátongó sebhely rejtélye: két csillag majdnem eltalálta a Napot

🚀 Körülbelül 4,5 millió évvel ezelőtt két fénylő, kék-fehér óriáscsillag – a Beta Canis Majoris és az Epsilon Canis Majoris – került meglepően közel a Naphoz, mindössze 30 fényéves távolságra...

csütörtök 15:02

Az év legmeghökkentőbb fizikai felfedezései

Tipikus eset, amikor a tudomány váratlanul izgalmas meglepetésekkel szolgál – és néha még egy fizikust is tengeribeteggé tesz egy tudományos konferencián...