Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 12:17

Megmentheti az új vezérigazgató a bajban lévő Kraft Heinzet?

🤔 A Kraft Heinz bejelentette, hogy Steve Cahillane, a Kellanova korábbi vezérigazgatója veszi át a cég vezetését, és segít a vállalat kettéválasztásában...

MA 12:03

Az Avatar kezdőcsomag: kihagyhatatlan ajándék az újonc Magic-játékosnak

🎁 A Magic: The Gathering világában az új rajongók bevonzása folyamatos kihívás, főleg, ha valaki egyedi tematikával ismerkedne meg...

MA 11:50

Az IMAP űrszonda már a Naprendszer peremét térképezi

🛰 A NASA Interstellar Mapping and Acceleration Probe (IMAP) űrszonda fedélzetén működő, a Southwest Research Institute által fejlesztett Compact Dual Ion Composition Experiment, vagyis a CoDICE nevű műszer már megkezdte első megfigyeléseit...

MA 11:33

A Meta árnyékában tomboló gigászi kínai hirdetési csalás

A Meta – annak ellenére, hogy Kínában tiltott a közösségimédia-platformjainak használata – évi több mint 6 400 milliárd forint (18 milliárd USD) bevételt termel Kínából származó reklámokból...

MA 11:18

Az Amazon visszaverte az orosz GRU hekkereinek támadását

🔒 Az Amazon Threat Intelligence csapata sikeresen megzavarta annak az orosz katonai hírszerzéshez, a GRU-hoz köthető hekkercsoportnak a tevékenységét, amely rendszeresen támadta a felhőalapú infrastruktúrákat...

MA 11:02

Az MI-chatbotok forradalma: fiatalok vezetik a katasztrófaelhárítást

💥 Az elmúlt évtizedben az Egyesült Államokat egyre súlyosabb időjárási események sújtják, amelyek több mint 2,7 billió forintnyi gazdasági veszteséget és 6403 halálesetet okoztak...

MA 10:51

Az agy belső GPS-e vezet, hogy ne tévedjünk el

Képzeld el, ahogy hazafelé sétálsz, aztán véletlenül rossz irányt veszel – az agyad szinte azonnal figyelmeztet, hogy eltévedtél...

MA 10:45

A klímabiztos menedék mítosza: van-e hov á futni?

🌀 Különösen igaz ez, amikor az éghajlatváltozás okozta válság új kihívások elé állítja a városokat...

MA 10:36

A sivatagból előkerült egyiptomi naptemplom döbbenetes titkai

Közel 4 500 éves völgyi templom került elő Egyiptomban, amely nemcsak egyedülálló vallási kalendáriumot, hanem valószínűleg csillagászati megfigyelésekre szolgáló tetőt is rejt...

MA 10:29

A Zesty új appja: étteremkeresés MI-vel, profik módjára

A DoorDash most elindította legújabb MI-alapú alkalmazását, a Zesty-t, amely kifejezetten arra készült, hogy gyorsan és egyszerűen találj új helyi éttermeket...

MA 10:22

Az év legnagyobb tech-áttörései, amelyek átírják a jövőt

A számítástechnika világában az idő és a memória egyaránt kulcsfontosságú erőforrás...

MA 10:09

Végre nappaliba valók a Samsung Micro RGB tévék

Megérkeztek a Samsung legújabb Micro RGB LED-tévéi, amelyek végre nemcsak óriási méretben érhetők el, hanem 140 cm-től (55 hüvelyk) egészen 254 cm-ig (100 hüvelyk) terjed a kínálat...

MA 10:02

Az új vérteszt leleplezte: a kiégett ló sosem nyer

🐎 Az OxiDx vérteszt legfrissebb eredményei szerint az oxidatív stressztől mentes versenylovak sokkal jobb eséllyel végeznek az élmezőnyben...

MA 10:00

A Trump-féle szakértelem ide vagy oda: végre elkészült a Roman-űrtávcső

👀 Néhány hete a NASA szakemberei végleg összeillesztették a Nancy Grace Roman Űrteleszkópot Marylandben, befejezve ezzel a szerelési munkálatokat...

MA 09:43

Az év végi Xbox-frissítés kényelmesebb headset-élményt hoz

Az év utolsó Xbox-frissítése kellemes meglepetést tartogat azoknak, akik Xbox Wireless Headsetet használnak Windows 11 alatt...

MA 09:36

Az X-et kísérti a Twitter múltja: új szabályok, régi nevek

Az X, a korábban Twitter néven ismert közösségi platform, váratlanul frissítette felhasználási feltételeit, visszahozva a Twitter márkaneveit és logóit a szabályzatba...

MA 09:30

Az új Robinhood: NFL-fogadással hódítja meg a fiatalokat

🏆 Érdemes megvizsgálni, hogy a Robinhood legújabb újításaival valóban átalakítja-e az online fogadások és előrejelzési piacok világát, mivel már nemcsak részvényekkel és kriptovalutákkal lehet kereskedni a platformjukon, hanem sporteseményekre és politikai fejleményekre is lehet fogadni – mégpedig elképesztő ütemben növekvő forgalom mellett...

MA 09:22

A várva várt olcsó vb-jegyek megérkeztek

🎉 A FIFA az óriási felháborodás nyomán visszakozott, és jelentősen csökkentette néhány labdarúgó-világbajnoki jegy árát...

MA 09:16

Az orvosok vészjelzése: a vastagbélrák egyre fiatalabbakat érint

💉 Vastagbélrákban egyre több fiatalt diagnosztizálnak világszerte, és az orvosok egyre nagyobb aggodalommal figyelik a trendet...