Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 07:30

A tudósok így fékezték az öregedést egereknél

🔬 A hosszú, egészséges élet titka sokakat foglalkoztat, és most újabb eredmények mutatják meg, hol érdemes keresni a válaszokat...

MA 07:23

Az év tíz korszakalkotó matematikai áttörése

📜 2025 igazán izgalmas évet hozott a matematika világában, ahol nemcsak a régi rejtélyek oldódtak meg, hanem olyan új problémák is felbukkantak, amelyek évekre izgalomban tartják majd a kutatókat...

MA 07:08

A hírhedt Microsoft-adathalász főfejlesztőt Nigériában kapták el

🔒 A nigériai rendőrség letartóztatta azt a három személyt, akik a Microsoft 365 elleni célzott kibertámadásokban vettek részt a hírhedt RaccoonO365 adathalász platform segítségével...

MA 07:01

Az újabb WatchGuard-baki: a Firebox ezúttal tálcán kínálja magát a támadóknak

🛡 A WatchGuard riadót fújt, miután súlyos biztonsági hibát találtak a Firebox tűzfalakban, amelyet már aktívan támadnak...

MA 06:57

A sydney-i egyetem ellopott adatainak hihetetlen útja

A Sydney-i Egyetem (University of Sydney) kénytelen több ezer jelenlegi és korábbi dolgozót, illetve hallgatót értesíteni, miután hackerek régi személyes adatokat szereztek meg egy online kódtárból...

MA 06:50

A mesterséges intelligencia beköltözött a Chrome-ba: itt a Claude-bővítmény

A Claude nevű MI mostantól minden fizetős felhasználó számára elérhető a Chrome böngészőben is...

MA 06:44

A Google új húzása: fizess minden nem Play-es telepítésért!

💸 A Google mostantól kemény árat szab meg azoknak a fejlesztőknek, akik szeretnék elkerülni a Play Áruház hivatalos fizetési útvonalát, és más módon telepítenék alkalmazásaikat...

MA 06:37

A fehérjeszintézis új korszakát nyitja az élet kapuőre

A Zürichi Műszaki Egyetem kutatóinak legfrissebb eredményei megmutatják, miként irányítja egy molekuláris komplex a fehérjék termelését, valamint feldolgozását a sejtjeinkben...

MA 06:23

Az Apple Watch megmentheti az ausztrálokat a sztróktól

Az ausztrál Apple Watch-felhasználók hamarosan figyelmeztetést kaphatnak magas vérnyomás esetén, miután az egészségügyi hatóság, a TGA engedélyezte az okosóra hipertóniára figyelmeztető értesítő funkcióját...

MA 06:15

A kéretlen évösszegzés: itt a LinkedIn Wrapped

Először a Spotify indította el a Wrapped-őrületet, majd sorban érkeztek a Snapchat, a YouTube és az Uber Eats összegzései...

MA 06:08

A mesterséges intelligencia pillangóhatása: apró hiba, óriási baj

Ahogy az MI egyre több szervezeti funkciót összeköt, nő az esélye annak, hogy egyetlen apró hiba lavinaszerűen végigsöpör mindenen...

MA 06:06

Történelmi események a mai napon (December 20.)

Izgalmas nap a történelemben: Rómában új császár lép színre, a johanniták Rodoszról Máltára költöznek, Jamestown felé útnak indulnak az első tartós angol telepesek, és Makaó visszakerül Kínához...

MA 06:01

Az UniCredit digitális értékpapírral tör be a kriptopiacra

Az UniCredit bejelentette, hogy kibocsátotta első tokenizált, strukturált kötvényét magánbefektetők számára – mindössze egy héttel azután, hogy állami partnerével, a Cassa Depositi e Prestiti-vel közösen kibocsátotta első tokenizált minikötvényét...

péntek 20:49

Az MI veszélyes biztonsági vihart kavart a felhőben

⚡ Az MI villámgyors elterjedése fenekestül felforgatja a felhőalapú biztonságot. Egy friss jelentés szerint egyre több cég használ MI-alkalmazásokat, szemmel láthatóan gyorsabban, mint ahogy az informatikai vezetők képesek biztonságosan követni...

péntek 20:17

Az interneten 25 ezernél több sebezhető FortiCloud-eszköz vár támadókra

Több mint 25 ezer Fortinet-eszközt találtak online bekapcsolt FortiCloud SSO-val, amelyek súlyos hitelesítési hibának vannak kitéve...

péntek 20:01

Az Apple mostantól saját maga hajtja be pénzét a fejlesztőkön

Az Apple új fejlesztői szerződése felkavarja az állóvizet: a vállalat mostantól engedélyt kapott arra, hogy különböző díjakat vagy jutalékokat – például az alkalmazáson belüli vásárlások jutalékait – akár automatikusan levonjon a fejlesztők bevételeiből...

péntek 19:50

A kínai „szuperinternet” felforgathatja a globális digitális erőviszonyokat

A kínai hatóságok hivatalosan is elindították a China Environment for Network Innovation (CENI) nevű kísérleti hálózatot, amely hatalmas ugrást hozhat a globális hálózati kutatásokban...

péntek 19:35

Az MI turbózza a kibervédelmet: összefog a Criminal IP és Palo Alto

🛠 Az átfogó fenyegetéselemzés és az automatizált incidenskezelés mostantól egyesül a Palo Alto Networks Cortex XSOAR és a Criminal IP együttműködésének köszönhetően...

péntek 19:18

Az Optus tűzfalfrissítése halálos árat követelt Ausztráliában

⚠ Szeptember 18-án az Optus, Ausztrália egyik vezető távközlési cége 14 órán keresztül képtelen volt számos ügyfele segélyhívását eljuttatni a 000-számra, amely az USA-ban a 911-nek, Európában pedig a 112-esnek felel meg...