2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 12:37

A kaliforniai végjáték: besokallt a Tesla az Autopilot miatt

Egy világ omlott össze a Tesla kaliforniai rajongói számára: már hiába keresed az Autopilot kifejezést, az államban hivatalosan is eltűnik a márka kommunikációjából...

MA 12:01

Az Infosys az Anthropic-kal szövetkezik – veszélyben a munkahelyek?

Az indiai IT-piac óriása, az Infosys együttműködési megállapodást kötött az Anthropic MI-fejlesztő céggel, amelynek célja, hogy az úgynevezett agentikus MI-től új lendületet kapjon a távközlési és egyéb, erősen szabályozott iparágak digitalizációja világszerte...

MA 11:56

Megáll a mesterséges intelligencia diadalmenete? Miért torpannak meg a cégek

A vállalatok világszerte hatalmas összegeket fektetnek mesterséges intelligenciába, ám a várt eredmények gyakran elmaradnak...

MA 11:37

Az éghajlatváltozás soha nem látott erőre kapcsolja a spanyol áradásokat

🌊 2024 októberében a valenciai térséget olyan rendkívüli esőzések sújtották, amelyek néhány óra alatt több csapadékot zúdítottak a vidékre, mint amennyi máskor egy teljes év alatt esik...

MA 11:19

Az Abu-Dzabi milliárdosok zuhanásban is halmozták a bitcoint

💰 Az Abu-Dzabi állami befektetési alapok jelentős szereplői nem riadtak vissza a bitcoin 2025-ös árfolyamzuhanásától: a Mubadala Investment Company és az Al Warda Investments a negyedik negyedévben komoly mennyiséget vásároltak a BlackRock iShares Bitcoin Trust (IBIT) spot bitcoin ETF-jéből...

MA 10:58

Az MI-uralomért folyó háború: a Pentagon, az Anthropic és a Palantir

🛡 Érdemes megvizsgálni, hogyan került az Anthropic, a Pentagon és a Palantir különös háromszögébe a mesterséges intelligencia...

MA 10:50

A kínai hekkerek lecsaptak: kritikus Dell-hibát használnak ki

⚠ Külön említést érdemel, hogy 2024 közepe óta egy kínai államilag támogatott hackercsoport folyamatosan kihasználja a Dell egyik kritikus sebezhetőségét...

MA 10:41

Az idei Google I/O: rejtvények, mesterséges intelligencia és Android – kapaszkodj!

Képzeld el, hogy a Google ismét rejtvényen keresztül csempészte be a nagy hírt: május 19–20-án lesz a Google I/O 2026...

MA 10:25

Az este, amikor lefagyott a YouTube – mindenki kiakadt, aztán helyreállt

Oké, azt hiszed, hogy nincs is olyan, hogy totális YouTube-leállás – de b*szusz, közben meg világszerte százezrek szakadtak le a videókról!..

MA 10:17

Az év techfesztje közeleg: megvan a Google I/O 2026 dátuma

🎉 Nem hiszem el, de május 19–20. között végre jön a Google I/O 2026, ráadásul a kaliforniai Mountain View ikonikus Shoreline Amfiteátrumában...

MA 10:02

Az új GameHub Macre hozza a Windows-játékokat – nem hibátlanul

🎮 A GameSir legújabb bejelentése szerint a GameHub nevű Windows-emulációs eszköze hamarosan elérhető lesz a macOS-re is...

MA 09:49

Az alattomos agyagréteg tette pusztítóbbá a 2011-es japán cunamit

🌊 Egy új kutatás megvilágítja, hogy a 2011-es, rendkívül pusztító cunamit okozó Tóhoku-földrengésért a tengerfenéken megbúvó, vastag agyagréteg is felelős lehet...

MA 09:41

Az új Google-keresőben végre normális méretűek a linkek?

🔗 A Google most végre úgy döntött, hogy a mesterséges intelligenciával támogatott keresési eredményeiben jóval feltűnőbben jeleníti meg a linkeket...

MA 09:33

Az északi hó riasztó fogyását évtizedekig leplezték a műholdak

Évtizedeken át a tudósok az amerikai Nemzeti Óceán- és Légkörkutató Hivatal (NOAA) adatain alapozták a hóborítottság változásainak vizsgálatát az északi féltekén, különösen ősszel...

MA 09:25

A Stripe stabilcoinbankja zöld utat kapott Amerikában

Fontos kérdés, hogy mikor válik hivatalosan elérhetővé a Stripe új banki vállalkozása, amely most zöld utat kapott az USA felügyeleti szervétől, az OCC-tól...

MA 09:17

Az aranyáron dolgozó Covid-kárvizsgáló helyére új cég érkezik

💸 Majdnem 19 milliárd forintnyi közpénzt fizetett ki az NHS egy külsős cégnek, amely a Covid-oltások által okozott egészségkárosodással kapcsolatos igényeket vizsgálta...

MA 09:10

A kvantumkor átírja a komplexitáselmélet szabályait

⚡ A számítógéptudomány legmélyén minden az inputokról és outputokról szól. Egy zsebszámológépen akár két szám összeszorzásakor, akár egy szám prímtényezőire bontásakor tulajdonképpen binárisan kódolt bemenetekből hozunk létre – többnyire szintén bináris – kimeneteket...

MA 09:01

Az MI-háború új fejezete: a Meta Nvidia-chipekre vált

Fontos kérdés, hogy milyen technológiával lehet a leghatékonyabb MI-rendszereket működtetni. Hatalmas fordulat állt be az adatközpontok világában: a Meta, a Facebook anyacége, új szintre emeli együttműködését az Nvidiával, és elsők között, nagy léptékben vezeti be a cég saját CPU-it...

MA 08:59

A jelszókezelők valódi arca: mit látnak belőlünk valójában?

🔐 Az elmúlt másfél évtizedben a jelszókezelők néhány techrajongó eszközéből milliók által használt biztonsági alappillérré váltak...

MA 08:50

Az MI-csúcstalálkozók már csak a pénzről szólnak?

Az MI biztonságát érintő globális egyeztetések egykor egy visszafogott, politikai körhöz tartoztak egy angliai magánházban...

MA 08:42

Az USA és Japán 13 ezermilliárd forintos energiapaktummal kihívja Kínát

Washingtonban új korszak kezdődik az energia- és nyersanyagiparban: az Amerikai Egyesült Államok és Japán együttműködésben gigantikus, 36 milliárd dollár (kb...

MA 08:25

Az üreges tüskéjű dinoszaurusz szenzációs felfedezése Kínában

Több mint két évszázada kutatják a növényevő iguanodontiákat, amelyeket a 19...

MA 08:17

A sofőr mentette meg a Teslát Kaliforniában, nem az Autopilot

Fontos kérdés, hogy egy autógyártó hogyan kommunikálja a fejlett vezetési funkcióit, különösen, ha azok elnevezése megtévesztheti a vásárlókat...

MA 08:02

A Google Home végre megkapta a mindenki által várt frissítést

A Google Home alkalmazás most fontos újításokat kapott: néhány kattintással olyan előre beállított asszisztensműveletek kerültek bele, amelyekért a felhasználók már régóta kiáltanak...

MA 07:58

Az Apple három új MI-alapú viselhető eszközt dobhat piacra hamarosan

Az Apple sem marad ki az MI-vel felszerelt viselhető eszközök versenyéből, és a tervek szerint akár már jövőre debütálhat három vadonatúj kütyü: MI-szemüveg, MI-pin és fejlettebb AirPods...

MA 07:50

A Samsung Galaxy S26: A kamera, amit az MI felturbóz

Lassan eljön az a pillanat, amikor a Samsung végre lerántja a leplet a Galaxy S26-ról, és most minden szem a kamerára szegeződik, szó szerint...

MA 07:33

A világ YouTube nélkül: percek alatt omlott össze a videóóriás

Tegnap este milliók számára vált elérhetetlenné a YouTube, amikor az oldal, az alkalmazások, a YouTube Music és a YouTube Kids is egyszerre omlott össze világszerte...

MA 07:27

Az MI-ügynökök felemelkedése: megérkezett az identitásalapú MI kora

🤖 Az MI nem csupán egyszerű hatékonyságnövelő eszköz, hanem alapjaiban átformálja a munkavégzés és szervezeti működés módját...

MA 07:17

Az Anthropic–Pentagon háború tűzvonalában a Palantir

Napvilágra került az Anthropic és a Pentagon közötti feszültség arról, hogyan és milyen feltételekkel használhatja az amerikai hadsereg az MI-technológiát...