2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 08:01

Az első engedély a hosszú csend után: Hongkong beizzítja a kriptópiacot

🔥 Hongkong végre megint mozgolódik kriptófronton: a Victory Fintech (VDX) megkapta a hivatalos engedélyt a helyi pénzügyi hatóságtól, így mostantól digitális eszközkereskedési platformként működhet, és egyből felkerült az elitlistára a többi 11 jóváhagyott platform mellé...

MA 07:58

Az OpenClaw: hype vagy valódi forradalom?

Különösen igaz ez akkor, ha az internet hirtelen felkap egy új technológiát, majd szinte azonnal kiderül, hogy a háttérben jóval kevesebb valós újítás rejlik, mint azt elsőre gondoltuk...

MA 07:49

Az Alibaba új AI-ja berobban: Qwen3.5, a kínai chatbotfront ügynöke

🔥 Vasárnap este, amikor a kínai újév kezdetét vette, az Alibaba pimasz mosollyal bejelentette és kiadta az új Qwen3...

MA 07:42

Az új, jelszómentes korszak: így felelsz meg az ISO 27001-nek

Az informatikai világban alapvető változás zajlik: a hagyományos jelszavas hitelesítés ideje leáldozóban van, helyét egyre inkább a passkey technológia veszi át...

MA 07:33

Az ingyen pénz nem okoz több balesetet vagy halált

💰 Az Egyesült Államokban egyre több helyen vezetik be azokat a programokat, amelyek során közvetlenül juttatnak pénzt az embereknek, ám ezek a kezdeményezések rendszeresen kiváltják a szkeptikusok kritikáját...

MA 07:17

Az Apple TV lecsap az F1-re: külön csatorna a nappalidba

Ugyanúgy, ahogy a Ferrari padlógázt nyom az egyenesben, az Apple sem vacakol: a Formula–1 mostantól saját csatornát kapott az Apple TV alkalmazásban...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 2/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Earplug (iPhone/iPad)Az Earplug egy minimalista relaxációs alkalmazás, amelyet alvásproblémák esetén használhatsz...

MA 07:01

Az agyam eldobom: Most tényleg ölre mennek a Steam Deck OLED-ért!

😱 Hoppá, gamerek, itt már nem csak a Diablóban kell vért izzadni: az új Steam Deck OLED egy ideig csak mutatóban lesz az üzletekben!..

MA 06:57

Az új adószabályok tényleg neked kedveznek, vagy csak átverés az egész?

Idén az adózás szokásosan gáz: elveszett papírok, stressz, félelem, hogy belezavarodsz mindenbe...

MA 06:49

Az új vérteszt áttörést hozhat a rák korai felismerésében

Egy csepp vérből már felismerhető lehet a daganat, még mielőtt azt bármilyen képalkotó vizsgálat kimutatná...

MA 06:33

Az Antarktisz utolsó őslakója már műanyagon él

Érdekes felvetés, hogy a világ legtávolabbi, leghidegebb tájait is eléri az emberi tevékenység következménye – a szennyezés...

MA 06:25

A férfiak öregedésének rejtett ára: az Y-kromoszóma eltűnése

👷 Ahogy a férfiak idősödnek, sejtjeikben egyre gyakrabban eltűnik az Y kromoszóma, amelyet sokáig ártalmatlannak tartottak...

MA 06:17

Az első PCIe 6.0-s SSD: a szerverek játékszere, nem a tiéd

💻 Na, végre megérkezett a PCIe 6.0 SSD, amit most először tényleg lehet venni – persze, hogy tiszta legyen: te úgysem fogsz hozzájutni, mert ezt csak az óriási AI-adatközpontoknak dobják oda...

MA 06:05

Történelmi események a mai napon (Február 17.)

Rövid utazás a történelemben: csaták, forradalmi technológiák és politikai fordulatok egyetlen napon átívelve...

hétfő 20:56

Az MI‑apokalipszis öt vészjósló jele: közelebb, mint gondolnád

Az utóbbi években rajongók és fejlesztők egy új MI-aranykort hirdettek, az ipari forradalom ígéretével és korábban elképzelhetetlen áttörésekkel...

hétfő 20:02

A Vatikánban mostantól AI fordítja élőben a misét 60 nyelven

⛪ Na, képzeld el, ott ülsz a Szent Péter-bazilika padjában, zsibbasztod a térded, és halvány fogalmad sincs, miről beszél a pap olaszul vagy latinul...

hétfő 19:56

A legendás Quake 3-at hajtó ördögi matek

🔥 A ’90-es évek végén, amikor a számítógépes hardver még messze nem volt ilyen gyors, a játékfejlesztőknek a lehető leghatékonyabb kódokat kellett írniuk, hogy a legmodernebb grafikát és élményt hozzák ki a gépeikből...

hétfő 19:39

Az Android szabadságának vége? Így változnak a letöltések

🚧 Az Android mindig is a szabadság szinonimája volt: a felhasználók szabadon telepíthettek alkalmazásokat külső forrásból, függetlenül a Play Áruháztól...

hétfő 19:19

Az Apple március 4-én tarol: új Mac, iPad, friss iPhone-színek?

New York, London, Sanghaj – az Apple idén végre kimozdul az unalmas Apple Parkból, és új eseményt dob össze március 4-én, magyar idő szerint délután 3 órakor...

hétfő 19:02

Az égitestek titkos órája: meddig él egy bolygó?

A bolygók születnek, alakulnak, majd elpusztulnak — de hogy mennyi ideig tart mindez, az a csillaguktól és saját belső folyamataiktól is függ...

APP
hétfő 18:59

APPok, Amik Ingyenesek MA, 2/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Tunepal (iPhone/iPad)Az alkalmazás a Sunday Times toplistáin is szerepelt: 2012-ben bekerült minden idők 500 legjobb appja közé, 2010-ben pedig az iPhone húsz legfontosabb kulturális alkalmazása között említették...

hétfő 18:56

Az agyi gyulladás lehet a kényszeresség rejtett mozgatórugója

Évtizedeken át a kényszeres viselkedést egyszerűen rossz beidegződésnek gondolták, mintha az agy csak rutinból ismételné ugyanazokat a cselekvéseket...

hétfő 18:48

Az új Samsung mobil végre leskelődésgátló kijelzőt kap

A Samsung most tényleg bedobott egy új, vad funkciót az S26-tal: bemutatkozott a privát kijelzőmód (privacy display)...

hétfő 18:37

Az erős pszichedelikum új reményt hozhat a depresszió kezelésében

Egyetlen adag dimetiltriptamin (DMT), amelyet sámánisztikus szertartásokban is használnak, jelentős és tartós javulást hozhat a súlyos depresszióval élők számára, ha pszichoterápiával együtt adják be...

hétfő 18:19

Az univerzum óriási, forgó kolosszusa váratlanul sokkolta a kutatókat

Lyla Jung, az Oxfordi Egyetem csillagásza egy különös, eddig ismeretlen szerkezetre figyelt fel monitorján: 400 millió fényévnyire a Földtől sikerült azonosítani egy óriási kozmikus fonalat, egy több száz galaxisból álló, forgó láncolatot...

hétfő 17:55

A gyorsan merülő iPhone-ok megmentője jöhet: érkezik az iOS 27

⚡ Sokan bosszankodnak az iOS 26 miatt, mert az iPhone akkumulátora alig bírja a napot...

hétfő 17:37

Az amerikai kormány pánikszerűen befoltozza a súlyos biztonsági rést

Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) ultimátumot adott a szövetségi hivataloknak: mindössze három napjuk van befoltozni a BeyondTrust-rendszereket érintő súlyos sérülékenységet, amelyet a támadók már aktívan kihasználnak...

hétfő 17:19

Az Ether túléli a 200 milliárdos eladási vihart

💰 A kriptopiacok továbbra is nyomás alatt vannak, miközben a hétvégi hatalmas eladási hullám után az ether árfolyama visszakapaszkodik a 735 ezer forintos (2000 dolláros) szint felé...

hétfő 17:01

Tényleg ellopta a mesterséges intelligencia egy rádiós hangját?

📢 A népszerű amerikai rádiós, David Greene szerint a Google NotebookLM nevű MI-eszköze engedély nélkül másolta le a hangját...