2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 10:29

A kátyúk tarolnak az utakon – érkezik a digitális javítás?

Felmerül a kérdés, hogy a városok mennyire tudják követni az utak állapotát, hiszen egy váratlan kátyú nemcsak bosszúságot, hanem akár súlyos károkat is okozhat az autóknak...

MA 10:23

A zsarolóvírus a ChipSoftot is térdre kényszerítette

Többek között a holland egészségügyi informatikai piac egyik legnagyobb szereplője, a ChipSoft is kénytelen volt leállítani weboldalát és digitális szolgáltatásait, miután zsarolóvírus-támadás érte...

MA 10:15

Az utolsó próba: tétre megy az Artemis II hazatérése

🚀 Nyolc mozgalmas űrbeli nap után az Artemis II legénysége és a NASA teljes csapata a küldetés utolsó, legkeményebb próbájára készül: az űrhajósoknak épségben kell hazatérniük...

MA 10:10

Az univerzum apró vörös fényei: a mutáns rája-raj titkai

🐡 Érdekes felvetés, hogy a galaxisok fejlődésének rejtett szakaszait egy különleges, távoli rendszer segítheti megfejteni, amelyet az űrtávcsövek csaknem véletlenül fedeztek fel...

MA 10:03

Az olajárak tombolnak: pánik söpör végig a piacokon

Különösen említést érdemel, hogy az olaj világpiaci ára, a Dated Brent, az utóbbi napokban vad kilengéseket produkált, ami súlyos stresszt jelez az energiaszektor szereplőinél...

MA 09:57

Megjött az első valódi kriptóbiztosítás: itt a Nexus Mutual

💰 Több mint 10 ezer tagja van már a Nexus Mutualnak, amely 2019 óta épít decentralizált biztosítási piacot az Ethereum-blokkláncon...

MA 09:50

Az ősi koreai elit ára: vér és áldozat

🖉 Felmerül a kérdés, hogyan éltek, szerveződtek és gyakorolták a hatalmat másfél évezreddel ezelőtt az ősi Koreában...

MA 09:43

Az új VENOM-támadás a felsővezetőkre csap le

😈 Erre példa, amikor egy ismeretlen hackercsoport kifejezetten nagyvállalatok felsővezetőit próbálja átverni, és ellopni Microsoft-fiókjaik hitelesítő adatait...

MA 09:22

Az új Gemini-noteszek végre együttműködnek a NotebookLM-mel

A Google Gemini mostantól egy vadonatúj funkcióval, a noteszekkel frissül, amelyek zökkenőmentesen szinkronizálnak a NotebookLM-mel...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/10

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Greeny Word Journey (iPhone/iPad)A Greeny Word Journey egy lenyűgöző szókirakó játék, mely élvezetesen fejleszti a szókincset és a logikai képességeket...

MA 09:09

A strapabíró tablet, ami mindent kibír: Dell Pro Rugged 12 teszt

🛡 Ha valaki kemény terepen dolgozik, nem elég egy hétköznapi tablet – a Dell Pro Rugged 12-t viszont mintha kifejezetten sivatagi viharhoz, extrém hideghez vagy zuhogó esőhöz találták volna ki...

MA 09:01

Az Apple nekirohan saját boltjainak: a szakszervezeti kezdeményezés is áldozatul esik

Hiába a menő dizájn, a hűvös tech-hangulat és a fényes Apple-logó, három amerikai bolt örökre lehúzza a rolót: Trumbull (Connecticut), Escondido (Kalifornia) és Towson (Maryland) júniusban végleg bezárnak...

MA 08:57

Az új Chrome megálljt parancsol a cookie-tolvajoknak

🔒 Fontos kérdés, hogy miként óvhatjuk meg személyes adatainkat az egyre fejlettebb kiberbűnözőktől...

MA 08:50

A félelmetes Doki Doki Irodalmi Klub eltűnt a Google Playről

😔 Külön említést érdemel, hogy a Doki Doki Irodalmi Klub (Doki Doki Literature Club, DDLC) mindössze néhány hónappal a debütálása után lekerült a Google Play Áruház kínálatából...

MA 08:43

Az 500 leggazdagabb ember vagyona egy nap alatt kilőtt

A Wall Streeten kedden elképesztő emelkedést láthattunk, miután Donald Trump visszavonta korábban belengetett fenyegetését, ezzel csillapítva a tőzsdei kereskedők félelmeit...

MA 08:36

Az év kriptóbotránya: 45 millió dolláros lehúzás, lenyúlós banda, visszaszerzett pénz

💸 Kibuktak a menő netes csalók, akik 45 millió dollárnyi kriptót akartak lecsapolni a gyanútlanoktól, de a rendőrök átlépték a digitális határokat, és 4,4 milliárd forintnyi ellopott összeget zároltak...

MA 08:30

A Pixel MI-s hangpostája mostantól igazán személyes

A Pixel telefonokon tavaly debütált Take a Message funkció modernizálta a hangpostát, valós idejű átiratokkal és MI-alapú kezeléssel...

MA 08:23

Az új áldozatok: ügyfelek tömege menekül a VMware-től

🚪 A Broadcom tavaly novemberi VMware-felvásárlása óta sok, korábban lojális ügyfél fordított hátat a piacvezető virtualizációs platformnak...

MA 08:01

A mesterséges intelligencia elveszi a munkád – visszatérni pokolian nehéz lesz

Azok a dolgozók, akiket az MI fejlődése miatt bocsátanak el, jóval nehezebben találnak új munkahelyet, és jelentős gazdasági hátrányokkal néznek szembe...

MA 07:56

A nagy rejtély: miért nem nőnek vissza a végtagjaink?

Aki gyerekként levágta az ujjbegyét, talán tapasztalta, hogy a testrész – bőrrel, körömmel együtt – képes volt visszanőni...

MA 07:50

Az új Gemini már nemcsak beszél, hanem meg is mutat!

Van az úgy, hogy magyarázatból sosem elég – de ha valaki vizuális típus, ezerszer könnyebb felfogni egy bonyolult témát, ha rögtön látod is, miről van szó...

MA 07:42

A Razer új fülese még a tokot is felturbózza

A Razer bemutatta Hammerhead V3 HyperSpeed vezeték nélküli gamer fülhallgatóját, amely egy trükkös tokkal érkezik...

MA 07:36

Az ugandai csimpánzok véres belháborúja dúl a dzsungelben

🐒 Jellemző példa erre, hogy az ugandai Kibale Nemzeti Parkban élő vadcsimpánzok hosszú évek óta tartó megfigyelése során most először figyelhették meg a kutatók, ahogy egy korábban egységes közösség kettészakadása halálos konfliktushoz vezetett...

MA 07:29

A Hormuzi-szoros lezárva: elszabadulnak az árak, közeleg az éhínség

A Hormuzi-szoros lezárása miatt kitört nemzetközi válság drámai hatással jár az élelmiszer-ellátásra és a mindennapi megélhetésre...

MA 07:22

Az agy rejtett csatornája: áttörés jöhet az Alzheimer ellen?

💡 Érdemes megérteni, hogy az emberi agy hulladékeltávolító rendszere mostanáig többnyire rejtve maradt...

MA 07:08

Az új mánia: klónozd le saját ikredet a YouTube-on!

Eljutottunk oda, hogy mostantól klónozhatod magad a YouTube-on – digitálisan. Az új avatar-funkcióval percek alatt teremthetsz egy olyan alteregót, amely pontosan úgy néz ki és beszél, mint te, de cserébe soha többé nem kell beülnöd a kamera elé...

MA 07:01

A Mac-ed 49 nap után összeomlik – ezt titkolja az Apple

💀 Milyen para már, amikor a Mac-ed hirtelen megáll, pedig csak békésen szöszmötöl az irodában vagy a gardróbban, egy csomó fontos feladattal a háttérben?..

MA 06:57

A kátyúk réme: az önvezető taxi megóvja a gumikat

Hihetetlen, de mégis igaz, hogy a Waymo önvezető autói mostantól nemcsak utasokat szállítanak, hanem a kátyúvadászatban is besegítenek...

MA 06:44

A mesterséges intelligencia a kanapén: Claude húszórás terápiája

🛌 Ilyen eset például, amikor egy fejlett MI-t pszichiátriai „kezelésnek” vetnek alá, hogy feltérképezzék annak mentális állapotát...