2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 13:12

A június gamer cuccai: mindent leteszteltünk, itt az ítélet

🎮 Fontos kérdés, hogy év közben melyik új játékhardver állítja fel a mércét, és melyik az, ami pénzkidobásnak tűnik...

MA 13:01

A betegélmény-oktatás kikerül a tantervből? Veszélyben az empátia

🙁 Az orvoslás világában régi hiányosság, hogy a betegeket gyakran csak biológiai gépekként kezelik, miközben mindannyian összetett életutakkal, tapasztalatokkal és kulturális hátterekkel érkezünk a rendelőbe...

MA 12:56

Az ajándék földért adatközpont jön, a környék felháborodott

🚨 Három évtizeddel ezelőtt egy texasi gazda, Mr. Bland 35 hektár földet adományozott Taylor városának, hogy a közösség sportoljon, táborozzon és együtt legyen a szabadban...

MA 12:34

Jön végre a hajlítható iPhone az Apple-től?

Az Apple-rajongók évek óta várják az újításokat, és most minden jel arra utal, hogy a régóta pletykált iPhone Ultra, az első hajlítható iPhone, hamarosan érkezik...

MA 12:23

Az azonosítás új határa: Hitelesített munkaerő és az ügynöki bizalom felemelkedése

🔑 A digitális világban a szervezetek évtizedeken át arra fókuszáltak, hogy partnereik és ügyfeleik személyazonosságát védjék...

MA 11:34

A Perfect Match párosa? Jimmy és Natalie: még csak barátok

A Tökéletes pár (Perfect Match) sztárjait, Jimmy Presnellt és Natalie Cruzt Nashville-ben kapták lencsevégre, ahogy együtt lazítanak egy bárban...

MA 11:23

A Verdák 20. évfordulója: Szuper ajándékok a Villám McQueen-rajongónak

🚗 Kereken 20 éve száguldott be a gyerekek és felnőttek szívébe a Verdák (Cars) világa!..

MA 11:12

Az Amazon végre elárulta a 2026-os ausztrál Prime Day dátumát

📅 Az idei Prime Day Ausztráliában hét napig tart majd: július 7-én, kedden 0:00-kor indul, és július 13-án, hétfőn 23:59-kor ér véget...

MA 10:54

A Coinbase és a Cardless új, stabilcoin-fedezetű hitelkártyát dob piacra

💳 Megemlíthető továbbá, hogy a Cardless és a Coinbase közös fejlesztésbe kezdett: olyan hitelkártyát vezettek be, amely lehetővé teszi a stabilcoin-tulajdonosoknak, hogy kriptovalutát használjanak fedezetként akkor is, ha nem jogosultak hagyományos, fedezetlen hitelkártyára...

MA 09:55

A watchOS 27 sem hozott Siri-alapú egészségcoachot, így a Fitbit Air vezet

💪 Az idei bejelentés végre elhozta a Siri régen várt, fejlettebb változatát, különálló alkalmazással, amely az Apple teljes ökoszisztémájában működik, a legerősebb Mac-től egészen a legkisebb óráig...

MA 09:46

Saylor az MI-t okolja a bitcoin-zuhanásért? Arca: Badarság!

😁 A múlt héten jelentős zuhanást élt át a bitcoin, az árfolyam közel 14 százalékkal esett vissza 60 000 dollárra, azaz körülbelül 21,6 millió forintra...

MA 09:37

Az új stadionturnéról Jay-Z titkokat csepegtet a Yankee Stadion előtt

Érdemes megvizsgálni, mire készül Jay-Z a közelgő, nagyszabású Yankee Stadion-beli fellépéseivel kapcsolatban...

MA 09:28

Az Arkane művésze megerősítette: nem kaszálják el a Blade-et

🗡 Ebből következően érdemes megérteni, hogy a Marvel’s Blade, az Arkane által fejlesztett nappaljáró akciójáték, továbbra is készül...

MA 09:19

A Megszállottság előtt Inde Navarrette CoD-killstreakeket streamelt lezser eleganciával

A fordulat oka mindenkit meglepett, hiszen kevesen tudják, hogy Inde Navarrette, a Megszállottság (Obsession) című horrorfilm főszereplője a világhírnév előtt teljesen hétköznapi gamer életet élt...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 6/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ICD-10 Dictionary (iPhone/iPad)Az alkalmazás segítségével könnyedén kereshetsz az egészségügyi adatbázisban akár ICD-10 kód, betegség neve vagy tünet alapján...

MA 09:01

A kínai bányászguru szerint 30 ezres bitcoin sem törné meg a MicroStrategy-t

💸 A kínai BTC.TOP vezetője, Jiang Zhuoer szerint a nagy piaci lejtmenet sem kényszerítené komoly bitcoin-eladásokra a MicroStrategy-t...

MA 08:55

A Guild Wars 3 mindent felráz: így újítja meg az MMORPG-t

🎮 Több mint egy évtized után az ArenaNet bejelentette: jön a Guild Wars 3...

MA 08:46

A bitcoin 63 ezer fölött, BNB, SOL feljebb, AI-részvények pattannak

A piacok ma reggelre látványos fordulatot vettek: a vezető részvényindexek visszapattantak, a techszektor pedig különösen erősödött...

MA 08:36

A Humanity Protocol tokenje 80%-ot zuhant egy 32 millió dolláros privátkulcs-hack után

A Humanity Protocol decentralizált identitásplatformjának H tokenje igazi zuhanórepülésbe kezdett, miután ismeretlen támadók ellopták a projekt egyik kulcsfontosságú alapítójának privát kulcsait, és az így megszerzett kriptovalutát rövid időn belül eladták...

MA 08:27

A Tribeca fesztivál vörös szőnyegén együtt debütál Katy Perry és Justin Trudeau

New Yorkban, a Tribeca Fesztivál vörös szőnyegén debütált együtt Katy Perry és Justin Trudeau...

MA 08:19

Az olvadó sarki jég kritikus fordulópontra löki a táplálékláncot

Az Északi-sarkvidék olyan biológiai fordulóponthoz érkezett, amely alapjaiban rengeti meg a tengeri élővilágot, és veszélybe sodorja a régió halászatát is...

MA 08:01

A NASA frissítést közölt a súlyosbodó ISS-szivárgásról, riasztás a fedélzeten

🚀 2019 óta tartó apró légszivárgások nehezítik az életet az orosz Zvezda moduljában a Nemzetközi Űrállomáson...

MA 07:55

Az Ebola ma itt, holnap bárhol: mi vár ránk?

💉 A Kongói Demokratikus Köztársaságban (KDK) és Ugandában zajló, halálos kimenetelű Ebola-járvány ismét Afrikára irányítja a világ figyelmét...

MA 07:37

Az eddigi legokosabb Siri így született – Google és Nvidia is kellettek

🧠 Érdemes megvizsgálni, hogyan sikerült az Apple-nek teljesen új szintre emelni a Siri-t, amire a felhasználók már két éve vártak...

MA 07:20

Az év legmerészebb pixelcsodája: a Derelict Star felrázza a műfajt

Néha egy játék annyira magával ragadó, hogy kis túlzással minden szabad percben rágondolsz – pontosan ilyen az új Derelict Star is...

MA 07:10

Az Alzheimer-kór új kiváltó okát találták – és egy szert, ami megállítja

🧠 Egy svájci kutatócsoport évek óta dolgozik azon, hogy megállítsa az Alzheimer-kór pusztító hatását, és most sikerült azonosítaniuk egy eddig ismeretlen kiváltó tényezőt, amelyet egy kísérleti gyógyszerrel egérkísérletekben sikeresen blokkoltak...

MA 07:01

A kriptó új trónkövetelője: a Hyperliquid mindent visz

💰 A digitális eszközök hullámzó világában ritka, hogy egy kriptoplatform stabil bevételt tud felmutatni, de a Hyperliquid most pontosan ezt teszi...

MA 06:55

Az Xbox áremelésének ára: milliók tűntek el a Game Passból

💸 Miután a Microsoft tavaly jelentősen megemelte a Game Pass árát, a szolgáltatás rövid időn belül több millió előfizetőt veszített...

MA 06:46

A Harness-1 lenyomja a GPT-5.4-et, és nem felejt

Egy lényeges szempont, hogy a fejlett MI-alapú keresőügynökök csak addig tűnnek félelmetesen hatékonynak, amíg nem kell összetett, mély összefüggéseket keresniük óriási dokumentumtömegekben...