2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

csütörtök 18:01

Az új Windows-visszaállítás végre több vállalati gépen érhető el

Ez a jelenség jól illusztrálható azzal, hogy a Microsoft szélesebb körben vezeti be a Windows 11-ben a személyes beállítások és a Microsoft Store-alkalmazások visszaállításának lehetőségét vállalati felhasználók számára...

csütörtök 17:03

Az OpenAI fellélegzik: Musk pere bizonyíték híján elbukott

🙌 Az Elon Musk által vezetett xAI nagy reményekkel indított pert az OpenAI ellen, azt állítva, hogy a rivális mesterségesintelligencia-fejlesztő cég jogtalanul csábított át nyolc xAI-munkatársat, hogy hozzájusson a vállalat adatközpontjaihoz és a Grok nevű chatbotjához kapcsolódó üzleti titkokhoz...

csütörtök 16:41

Az olcsó kamerák visszatérnek: 2026 legjobb vételei

📷 Érdemes megvizsgálni, mennyit kell ténylegesen költened egy új kamerára, amely jól teljesít, megbízható, és kreatív lehetőségeket ad a kezedbe...

csütörtök 14:01

A kozmikus káosz még sosem volt ilyen gyönyörű

🌏 A Tejútrendszer központjáról készült legújabb felvétel a csillagászat egyik legizgalmasabb fejezetébe enged bepillantást...

csütörtök 13:58

Az Instagram azonnal riasztja a szülőket, ha a gyerek öngyilkosságra keres

🚨 Az Instagram hamarosan értesítést küld a szülőknek, ha gyermekük ismételten öngyilkossággal vagy önsértéssel kapcsolatos kifejezésekre keres rá az alkalmazásban...

csütörtök 12:01

Az Ubernél már a mesterséges Dara-robotnak kell prezentálni?

Sokan hideg verítéket izzadnak már a gondolatra is, hogy egy CEO előtt kelljen bemutatót tartani...

csütörtök 11:58

A Rolls-Royce sosem látott részvényvisszavásárlással és rekordbevétellel tarol

A brit Rolls-Royce óriási lendületet vett, miután jelentős működési nyereséget és részvény-visszavásárlást jelentett be az egyre növekvő hajtóműigényeknek köszönhetően...

csütörtök 11:40

Az MI-alapú Claude Code kritikus biztonsági rést hagyott nyitva

Tipikus eset, amikor egy fejlesztőcsapat nagy lendülettel veti bele magát a közös munkába, majd váratlanul kiderül, hogy a folyamatban egy kritikus sebezhetőség lapul...

csütörtök 11:20

A Bitcoin hiába tört a 70 ezer felé, az altcoinok taroltak

💸 A Bitcoin újra megközelítette a 70 000 dolláros (kb. 25,7 millió forint) szintet, mielőtt visszacsúszott volna 68 300 dollár (kb...

csütörtök 10:46

Az új Galaxy S26 szenzációja: élő fordítás a kamerán át

A legújabb Galaxy S26 mobilok egy csendben bevezetett újdonsággal rukkoltak elő, amit eddig egyetlen Samsung-készülék sem tudott...

csütörtök 10:28

Az edzés nem csodaszer: alig segít ízületi kopásnál

💪 Különösen igaz ez akkor, ha valaki abban reménykedik, hogy a testmozgás majd jelentősen csökkenti az ízületi kopás, vagyis az oszteoartritisz okozta fájdalmat...

csütörtök 10:19

Az övsömör elleni oltás lelassíthatja az öregedést – kutatók szerint

Érdekes felvetés, miszerint az övsömör elleni oltás nemcsak a fájdalmas kiütés megelőzésében lehet hasznos, hanem az öregedés folyamatára is hatással lehet...

csütörtök 10:02

Az Apollo-holdkőzetek felfedték a Hold mágneses múltjának új titkát

Az Apollo-program során gyűjtött holdkőzetek évtizedeken át azzal a feltételezéssel szolgáltak, hogy a Holdnak régen erős mágneses tere volt...

csütörtök 09:47

A zabkása-diéta két nap alatt leviszi a koleszterint

Csak két napnyi, kizárólag zabkásából álló étrend már drasztikus eredményt hozhat a szív- és anyagcsere-egészség terén – legalábbis ezt mutatja a Bonni Egyetem nemrégiben a Nature Communications folyóiratban publikált klinikai kísérlete...

csütörtök 09:29

A Samsung Galaxy S26: villámgyors, még drágább, MI-őrület

⚡ Fontos kérdés, hogy a ma bemutatott Galaxy S26 mennyire tudja megújítani a csúcskategóriás okostelefonok világát...

csütörtök 09:19

Az Űragy új fotókkal támad: itt a Kitett Koponya-köd

👽 A James Webb Űrtávcső megint rátett egy lapáttal: legújabb fotóin egy elképesztően bizarr ködöt mutat be, amit a neve is elárul – a Kitett koponya-köd (Exposed Cranium Nebula)...

csütörtök 09:10

Az AMD új EPYC chipekkel lerohanja a piacot

🚀 Erre utal többek között az, hogy az AMD röviddel a 2026-os Mobile World Congress előtt leleplezte az EPYC 8005 (kódnéven Sorano) processzorcsaládot, amelyet a távközlési és edge-szerverekre szánt...

csütörtök 09:03

Az Nvidia új rekordot dönt: minden üzletág tarol az MI-lázban

Az NVIDIA 2026-os pénzügyi évének negyedik negyedévében ismét elképesztő eredményekkel rukkolt elő...

csütörtök 08:55

Az új Bitcoin-szárnyalás mögött viharok gyülekeznek

Megemlíthető továbbá, hogy a Bitcoin drámai emelkedése után ismét közelebb került a 69 000 dolláros (kb...

csütörtök 08:46

A sci-fi blog, amitől AI-pánik tört ki a Wall Streeten

👽 Elképesztő, hogy egy sima Substack-bejegyzés ekkora hullámokat vethet a tőzsdén: egy 2028-ra elképzelt, mesterséges intelligencia által előidézett világválságról szóló elemzés a vasárnapi piaci zuhanásokat is elindította...

csütörtök 08:29

Az MI ereje a csapatmunkában rejlik, nem az automatizálásban

Fontos kérdés, hogy az MI vajon tényleg az automatizálás hozza-e el a forradalmi változásokat, vagy valami sokkal lényegesebbről van szó...

csütörtök 08:03

Az új Galaxy S26 Ultra hódít – közben még spórolhatsz

🚀 A Samsung Galaxy S26-sorozat bemutatkozása nem jelent forradalmat, inkább aprólékos finomhangolásokat és néhány lényeges, helyenként egyedi innovációt hoz – leginkább a prémium Ultra modellnél...

csütörtök 07:55

Az illegális szerencsejáték botránya elérte a Valve-ot New Yorkban

New York állam főügyésze bíróság elé idézte a Valve-ot, mert szerinte a vállalat videojátékai, mint például a Counter-Strike 2, a Team Fortress 2 és a Dota 2 tudatosan ösztönzik a fiatalkorúakat jogellenes szerencsejátékra az úgynevezett loot box-rendszeren keresztül...

csütörtök 07:37

Az érintőkijelzős MacBook Pro megkapja az iPhone-trükköt, Face ID nélkül

Erre utal többek között az, hogy az Apple hamarosan egy új, OLED-kijelzős, érintőképernyős MacBook Pro bemutatására készül, amely megkapja az iPhone-okról ismert Dynamic Island funkciót...

csütörtök 07:28

Az AMD 84 magos Epyc-cel rohamozza az Intelt

Az AMD újabb lendületet ad a szerverpiacnak legújabb Epyc fejlesztésével, a 8005-szériás, Sorano kódnevű processzorokkal...

csütörtök 07:19

Az újabb Cisco SD-WAN-botrány: a kritikus rést tavaly óta kihasználják

🔴 Egy súlyos biztonsági hiba miatt komoly támadások érték a Cisco Catalyst SD-WAN rendszereket, többek között a felhőben és helyben telepített SD-WAN Controller (korábban vSmart) és SD-WAN Manager (korábban vManage) platformokat...

APP
csütörtök 07:12

APPok, Amik Ingyenesek MA, 2/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Auto Redial App (iPhone/iPad)Ez az alkalmazás lehetővé teszi, hogy automatikusan hívásokat indíts a kiválasztott telefonszámokra, hatékonyan és személyre szabottan...

csütörtök 07:10

A legújabb SonicWall-botrány: zárolt banki adatok, per a vége

Augusztus 14-én hekkerek betörtek a Marquis Software Solutions hálózatába, miután feltörték a cég SonicWall-tűzfalát...

csütörtök 07:02

Az MI-aranyláz pörög: újabb 250 ezermilliárd forint ömlik adatközpontokba

Felmerül a kérdés, hogy hova vezethet az a tempó, ahogy a technológiai óriások öntik a pénzt az MI-infrastruktúrába: idén közel 250 ezermilliárd forint értékben épülnek adatközpontok világszerte, és még mindig nem látszik a vége...