2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 12:01

Az Ubernél már a mesterséges Dara-robotnak kell prezentálni?

Sokan hideg verítéket izzadnak már a gondolatra is, hogy egy CEO előtt kelljen bemutatót tartani...

MA 11:58

A Rolls-Royce sosem látott részvényvisszavásárlással és rekordbevétellel tarol

A brit Rolls-Royce óriási lendületet vett, miután jelentős működési nyereséget és részvény-visszavásárlást jelentett be az egyre növekvő hajtóműigényeknek köszönhetően...

MA 11:40

Az MI-alapú Claude Code kritikus biztonsági rést hagyott nyitva

Tipikus eset, amikor egy fejlesztőcsapat nagy lendülettel veti bele magát a közös munkába, majd váratlanul kiderül, hogy a folyamatban egy kritikus sebezhetőség lapul...

MA 11:20

A Bitcoin hiába tört a 70 ezer felé, az altcoinok taroltak

💸 A Bitcoin újra megközelítette a 70 000 dolláros (kb. 25,7 millió forint) szintet, mielőtt visszacsúszott volna 68 300 dollár (kb...

MA 10:46

Az új Galaxy S26 szenzációja: élő fordítás a kamerán át

A legújabb Galaxy S26 mobilok egy csendben bevezetett újdonsággal rukkoltak elő, amit eddig egyetlen Samsung-készülék sem tudott...

MA 10:28

Az edzés nem csodaszer: alig segít ízületi kopásnál

💪 Különösen igaz ez akkor, ha valaki abban reménykedik, hogy a testmozgás majd jelentősen csökkenti az ízületi kopás, vagyis az oszteoartritisz okozta fájdalmat...

MA 10:19

Az övsömör elleni oltás lelassíthatja az öregedést – kutatók szerint

Érdekes felvetés, miszerint az övsömör elleni oltás nemcsak a fájdalmas kiütés megelőzésében lehet hasznos, hanem az öregedés folyamatára is hatással lehet...

MA 10:02

Az Apollo-holdkőzetek felfedték a Hold mágneses múltjának új titkát

Az Apollo-program során gyűjtött holdkőzetek évtizedeken át azzal a feltételezéssel szolgáltak, hogy a Holdnak régen erős mágneses tere volt...

MA 09:47

A zabkása-diéta két nap alatt leviszi a koleszterint

Csak két napnyi, kizárólag zabkásából álló étrend már drasztikus eredményt hozhat a szív- és anyagcsere-egészség terén – legalábbis ezt mutatja a Bonni Egyetem nemrégiben a Nature Communications folyóiratban publikált klinikai kísérlete...

MA 09:29

A Samsung Galaxy S26: villámgyors, még drágább, MI-őrület

⚡ Fontos kérdés, hogy a ma bemutatott Galaxy S26 mennyire tudja megújítani a csúcskategóriás okostelefonok világát...

MA 09:19

Az Űragy új fotókkal támad: itt a Kitett Koponya-köd

👽 A James Webb Űrtávcső megint rátett egy lapáttal: legújabb fotóin egy elképesztően bizarr ködöt mutat be, amit a neve is elárul – a Kitett koponya-köd (Exposed Cranium Nebula)...

MA 09:10

Az AMD új EPYC chipekkel lerohanja a piacot

🚀 Erre utal többek között az, hogy az AMD röviddel a 2026-os Mobile World Congress előtt leleplezte az EPYC 8005 (kódnéven Sorano) processzorcsaládot, amelyet a távközlési és edge-szerverekre szánt...

MA 09:03

Az Nvidia új rekordot dönt: minden üzletág tarol az MI-lázban

Az NVIDIA 2026-os pénzügyi évének negyedik negyedévében ismét elképesztő eredményekkel rukkolt elő...

MA 08:55

Az új Bitcoin-szárnyalás mögött viharok gyülekeznek

Megemlíthető továbbá, hogy a Bitcoin drámai emelkedése után ismét közelebb került a 69 000 dolláros (kb...

MA 08:46

A sci-fi blog, amitől AI-pánik tört ki a Wall Streeten

👽 Elképesztő, hogy egy sima Substack-bejegyzés ekkora hullámokat vethet a tőzsdén: egy 2028-ra elképzelt, mesterséges intelligencia által előidézett világválságról szóló elemzés a vasárnapi piaci zuhanásokat is elindította...

MA 08:29

Az MI ereje a csapatmunkában rejlik, nem az automatizálásban

Fontos kérdés, hogy az MI vajon tényleg az automatizálás hozza-e el a forradalmi változásokat, vagy valami sokkal lényegesebbről van szó...

MA 08:03

Az új Galaxy S26 Ultra hódít – közben még spórolhatsz

🚀 A Samsung Galaxy S26-sorozat bemutatkozása nem jelent forradalmat, inkább aprólékos finomhangolásokat és néhány lényeges, helyenként egyedi innovációt hoz – leginkább a prémium Ultra modellnél...

MA 07:55

Az illegális szerencsejáték botránya elérte a Valve-ot New Yorkban

New York állam főügyésze bíróság elé idézte a Valve-ot, mert szerinte a vállalat videojátékai, mint például a Counter-Strike 2, a Team Fortress 2 és a Dota 2 tudatosan ösztönzik a fiatalkorúakat jogellenes szerencsejátékra az úgynevezett loot box-rendszeren keresztül...

MA 07:37

Az érintőkijelzős MacBook Pro megkapja az iPhone-trükköt, Face ID nélkül

Erre utal többek között az, hogy az Apple hamarosan egy új, OLED-kijelzős, érintőképernyős MacBook Pro bemutatására készül, amely megkapja az iPhone-okról ismert Dynamic Island funkciót...

MA 07:28

Az AMD 84 magos Epyc-cel rohamozza az Intelt

Az AMD újabb lendületet ad a szerverpiacnak legújabb Epyc fejlesztésével, a 8005-szériás, Sorano kódnevű processzorokkal...

MA 07:19

Az újabb Cisco SD-WAN-botrány: a kritikus rést tavaly óta kihasználják

🔴 Egy súlyos biztonsági hiba miatt komoly támadások érték a Cisco Catalyst SD-WAN rendszereket, többek között a felhőben és helyben telepített SD-WAN Controller (korábban vSmart) és SD-WAN Manager (korábban vManage) platformokat...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 2/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Auto Redial App (iPhone/iPad)Ez az alkalmazás lehetővé teszi, hogy automatikusan hívásokat indíts a kiválasztott telefonszámokra, hatékonyan és személyre szabottan...

MA 07:10

A legújabb SonicWall-botrány: zárolt banki adatok, per a vége

Augusztus 14-én hekkerek betörtek a Marquis Software Solutions hálózatába, miután feltörték a cég SonicWall-tűzfalát...

MA 07:02

Az MI-aranyláz pörög: újabb 250 ezermilliárd forint ömlik adatközpontokba

Felmerül a kérdés, hogy hova vezethet az a tempó, ahogy a technológiai óriások öntik a pénzt az MI-infrastruktúrába: idén közel 250 ezermilliárd forint értékben épülnek adatközpontok világszerte, és még mindig nem látszik a vége...

MA 06:55

Az új Galaxy S26-ok közül melyik a legjobb vétel?

📱 Ha azt hinnéd, hogy a Samsung idén csak a szokásosat hozta, nagyot tévedsz: a Galaxy S26 család simán berúgja az AI ajtaját, így nemcsak okosabb lett minden mobil, de tempóban is szupergyorsak...

MA 06:47

A Gong mindent kockára tesz az MI-háborúban

A Gong, a bevételi intelligencia piacának egyik meghatározó szereplője, most minden eddiginél ambiciózusabb platformfrissítéssel jelentkezett...

MA 06:37

Az ősi marsi élet jelei évezredeken át fennmaradhatnak a jégben

A Mars felszínén található jégsapkákat eddig főként a bolygó klímatörténetének tanulmányozására használták, azonban egy friss NASA-kutatás szerint ezek igazi időkapuként őrzik az ősi élet nyomait...

MA 06:28

A MrBeast-csapat sztárja lebukott bennfentes kereskedelemmel

💸 Egy YouTube-sztár, MrBeast népszerű valóságshow-jához köthető alkalmazottat tiltottak el a Kalshi jóslatpiaci platformján, miután bennfentes kereskedelemmel vádolták meg...

MA 06:19

Az OpenAI ütőkártyája: a Frontier és a titkos tanácsadók

Az OpenAI eddig főleg a ChatGPT-vel robbant be a köztudatba, most azonban valami sokkal nagyobb dobásra készül: bemutatkozik a Frontier, amely vállalati szinten képes MI-ügynökök létrehozására, telepítésére és üzemeltetésére egy cégen belül...