2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:42

Miért eszik meg a gyerekek a saját taknyukat?

🤢 A gyerekek, felnőttek és más főemlősök, például a csimpánzok is ismertek arról, hogy piszkálják az orrukat és megeszik a taknyukat...

MA 09:33

A Hims & Hers lebukott: hamis fogyókúrás tablettákat árult

💊 A Hims & Hers szombaton bejelentette, hogy leállítja a Wegovy másolatának értékesítését, miután a Novo Nordisk és az amerikai Élelmiszer- és Gyógyszerügyi Hatóság (FDA) jogi lépésekkel fenyegette meg a távegészségügyi szolgáltatót...

MA 09:25

Az Anthropic örökre lemondott a reklámokról – de vajon tartható ez az ígéret?

🤔 Az Anthropic csatlakozott azon márkák hosszú listájához, amelyek megfogadták, hogy reklámmentes maradnak...

MA 09:08

A Waymo Fülöp-szigeteki dolgozói csendben irányítják az önvezető autókat

A Waymo szerdán meglepte az amerikai törvényhozókat egy autonóm járművekkel foglalkozó meghallgatáson...

MA 08:56

Az olvasás halála: tévhit vagy valóság?

Valóban szétrombolták a digitális technológiák a figyelmünket, és kiszorították a könyveket a kultúránkból?..

MA 08:50

Az emberiség közös ősére deríthet fényt egy 773 000 éves marokkói lelet

🦴 Egy marokkói barlangból előkerült fosszíliák kivételes pontossággal, körülbelül 773 000 évvel ezelőttre datálhatók, köszönhetően a környező üledékekben rögzült mágneses lenyomatnak...

MA 08:41

A Bitcoin 50%-os zuhanása nem válság, hanem természetes volatilitás

Gary Bode fedezeti alap veterán szerint a Bitcoin közel 50%-os esése a közelmúltbeli csúcsokról nem rendszerszintű válságot jelez, hanem összhangban van a kriptovaluta történelmével, amely során hasonló mértékű, de történelmileg mindig átmeneti zuhanások voltak jellemzőek...

MA 08:24

Az Anthropic mesterséges intelligenciája 500 kritikus biztonsági hibát fedezett fel

Az Anthropic legújabb MI-modellje több mint 500 korábban ismeretlen, súlyos biztonsági hibát tárt fel nyílt forráskódú könyvtárakban, szinte külön utasítás nélkül...

MA 08:01

Mi köze a 6-7-nek, a démonoknak és az Agymenőknek a prímszámokhoz?

Ebből következően érdemes megérteni, hogy a prímszámok a matematika atomjaihoz hasonlóak: olyan oszthatatlan építőelemek, amelyekből minden más szám összeáll...

MA 07:57

A keserű íz azonnal felpörgeti az agyad

🧠 Új kutatás szerint a flavanolokban gazdag ételek keserű, összehúzó íze közvetlenül aktiválhatja az agyat, és pusztán az ízérzékelés által válthat ki a testmozgáshoz hasonló hatásokat...

MA 07:48

Az Anthropic mesterséges intelligenciája 500 kritikus biztonsági rést fedezett fel

Az Anthropic legújabb MI-modellje, a Claude Opus 4.6 több mint 500 korábban ismeretlen, súlyos biztonsági hibát fedezett fel nyílt forráskódú könyvtárakban, minimális utasítással...

MA 07:41

A Cardano alapítója 1200 milliárd forintos veszteséget szenvedett el

😔 Charles Hoskinson, a Cardano alapítója tokiói élő közvetítésében felfedte, hogy több mint 3 milliárd dollár (körülbelül 1200 milliárd forint) nem realizált veszteséget halmozott fel a jelenlegi kriptopiaci zuhanás során...

MA 07:35

Az 5 legjobb elektromos fogkefe gyerekeknek – szakértői tippek a választáshoz

Február a Gyermek Fogászati Egészség Hónapja az Egyesült Államokban, így ez a tökéletes alkalom arra, hogy beszéljünk a kicsik fogairól és ínyszövetéről...

MA 07:26

Állami hackerek 155 ország kormányzati rendszereibe férkőztek be

🌐 Egy államilag támogatott kibercsapat több tucat ország kormányzati és kritikus infrastruktúra-hálózatát törte fel egy Shadow Campaigns névre keresztelt globális kémkedési műveletben...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 07:01

A tapasztalat minden esetben felülmúlja az ifjú lelkesedést

Egyre több kutatás bizonyítja, hogy az idősebb munkavállalók általában produktívabbak fiatalabb kollégáiknál...

MA 06:49

Az Nvidia-részvények történelmi hozamot hozhatnak a mostani árakon

Kevesen mondanák azt, hogy az Nvidia részvénye olcsó, pedig valójában ez a helyzet...

MA 06:41

A pókselyem titka: így lesz erősebb az acélnál

🕷 A tudósok feltárták azt a molekuláris titkot, amely a pókselymet acélnál erősebbé teszi, és új utakat nyit a jövő anyagai, valamint az agybetegségek megértése felé...

MA 06:32

A nagy techcégek atomenergia-üzletei mindent megváltoztathatnak

A Fortune szerint az atomenergia újjászületése folyamatban van, ezúttal a mesterséges intelligencia energiaigényének kielégítésére...

MA 06:25

Ingatlanpiaci elemzés: hol kerülnek egyre jobb helyzetbe a vevők?

🏘️ Az ingatlanárak alakulásának megértéséhez kulcsfontosságú az aktív kínálat és a készlet hónapjainak figyelemmel kísérése...

MA 06:16

A bitcoin-befektetők visszatértek: széles körű felvásárlási hullám indult

📈 A Glassnode adatai szerint február elején, amikor a bitcoin 29 millió forint körül forgott, a nagy befektetők elkezdtek pozíciót építeni...

MA 06:05

Történelmi események a mai napon (Február 8.)

Mi történt ezen a napon a történelemben? Ezen a napon kivégzik Mary, Queen of Scots-ot (Skóciai Mária királynőt), Japán megszállja Szingapúrt, és elindul a NASDAQ tőzsdeindex...

MA 06:02

A mesterséges intelligencia több mellrákot szúr ki, mint a radiológusok

🔬 Egy úttörő klinikai vizsgálat kimutatta, hogy az MI-támogatott mammográfia több rákos megbetegedést képes felismerni, és korábban, mint a hagyományos vizsgálat...

szombat 20:37

A COVID és a H1N1 két hét alatt söpört végig Amerikán

🦠 Egy új kutatás megdöbbentő sebességet tárt fel, amivel a H1N1 és a COVID-19 elterjedt az amerikai városokban...

szombat 20:01

A NASA február 11-én indítja útnak a Crew-12 legénységét a Nemzetközi Űrállomásra

🚀 A Crew-12 űrhajósai február 11-én indulnak a Nemzetközi Űrállomásra, csatlakozva a fedélzeten maradt három űrutazóhoz, miután az előző missziót egészségügyi okokból lerövidítették...

szombat 19:55

A BridgePay elleni zsarolóvírus-támadás országos fizetési káoszt okozott

Az egyik legnagyobb amerikai fizetésiátjáró-szolgáltató, a BridgePay ransomware-támadás áldozata lett, ami kulcsfontosságú rendszereit tette elérhetetlenné, és országos kiesést okozott...

szombat 19:37

A Bitcoin 70 000 dollár alá zuhant a piaci pánik közepette

💸 A Bitcoin 60 000 dollár közeléből körülbelül 69 000 dollárra tért magához, miután gyakorlatilag visszaadta azokat a nyereségeket, amelyeket Donald Trump 2024...

szombat 19:19

Az új AirTag, a Nex Playground és az MSI Prestige: a hét legizgalmasabb tesztjei

🏷️ Ebből következően érdemes megérteni, hogy február kellős közepén jócskán volt dolga az Engadget tesztelőinek...

szombat 19:02

Harcosi felszereléssel temettek el angolszász gyerekeket Nagy-Britanniában

Régészek angolszász gyerekeket fedeztek fel, akiket lándzsával, pajzzsal és csatokkal temettek el – olyan felszereléssel, amely általában harcosok sírjaiban található...