2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:46

A fény ujjlenyomata leszámolhat a deepfake-kel és álhírekkel

Egy brit startup, a Lightmark forradalmasítaná a videók hitelesítését: a hagyományos, utólagos ellenőrzés helyett a felvétel pillanatában titkos fényujjlenyomat kerül a felvételre...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 5/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     War Mongrels (iPhone/iPad)A War Mongrels egy izometrikus nézetű, valós idejű taktikai játék, mely a második világháború keleti frontján játszódik...

MA 09:01

A kalózok csendre intik egymást a Subnautica 2 illegális másolatai miatt

🕺 A Subnautica 2 korai hozzáférésű változatát még a hivatalos megjelenés előtt kiszivárogtatták, és sokan büszkén hencegtek azzal, hogy ingyen játszanak, ahelyett hogy fizetnének a 11 000 forintos játékért...

MA 08:02

Az Intercom, ma már Fin, MI-ügynököt indít, amely egy másikat irányít

Az MI-vezérelt ügyfélszolgálati rendszerek mára megkerülhetetlen szereplőivé váltak a vállalatok életében...

MA 07:46

Az utolsó titán: Délkelet-Ázsia legnagyobb dinoszauruszát találták Thaiföldön

Mintegy 100 millió évvel ezelőtt a mai Thaiföld területén egy hatalmas, hosszú nyakú növényevő dinoszaurusz vándorolt, amelynek most felfedezett maradványai átírják Délkelet-Ázsia földtörténetét...

MA 07:37

Az igazi vállalati csata: nem a modellekért, hanem az ügynökvezérlésért

Erre utal többek között az, hogy a legnagyobb technológiai óriások nemcsak abban versengenek, kinek a modellje válaszol jobban a kérdésekre, hanem abban is, hogy melyikük teszi le az asztalra azt az infrastruktúrát, ahol az MI‑ügynökök élnek és dolgoznak...

MA 07:28

Az elhagyott Love Live! domainért 225 milliárdnál tart a licit

💰 Japánban egyre nagyobb a felháborodás a Szerelem, élőben! (Love Live!) univerzum rajongói körében, miután feltűnt, hogy az Aqours hivatalos rajongói klubjának domainje lejárt, és most árverésen próbálják értékesíteni – a jelenlegi vezető licit pedig elképesztő, több mint 225 milliárd forintot, azaz 97 milliárd jent tesz ki...

MA 07:10

A legnagyobb El Niño az 1870-es évek óta közeleg – súlyos humanitárius következményekkel

A világ egyre közelebb kerül egy olyan El Niño-eseményhez, amely hatásaiban valószínűleg felülmúlja az elmúlt másfél évszázad összes hasonló időjárási ciklusát...

MA 07:01

Az OLED-háború élesedik: a Samsung árakkal támadja az LG-t

A Samsung új OLED tévéi 2026-ban végre hivatalos árcédulát kaptak, és a gyártó lépésről lépésre az LG babérjaira tör...

MA 06:55

A Coros órák megkapják az Apple- és Garmin-féle hangvezérlést egy nagy frissítéssel

A Coros okosórák tulajdonosainak új, nagyszabású, új funkciókat tartalmazó frissítés érkezik...

MA 06:47

A Withings ScanWatch 2 teszt: lenyűgözően elegáns, egészségközpontú EKG-okosóra

Érdekes felvetés, hogy a legtöbb okosóra inkább sportos vagy robusztus megjelenésével próbál kitűnni, a Withings ScanWatch 2 viszont egészen más irányba viszi az okosóra-koncepciót...

MA 06:28

A titok nyitja: a toll az e‑papíros tabletek királya

🖋 Külön említést érdemel, hogy több mint egy tucat digitális jegyzetfüzet kipróbálása után kiderült: a legfontosabb tényező egy e-ink táblagép esetében nem maga a táblagép, hanem a hozzá tartozó toll – pontosabban annak apró hegye és a papírra írás érzetének minősége...

MA 06:05

Történelmi események a mai napon (Május 16.)

Miért különleges ez a nap? A varsói gettófelkelés vége, az első Oscar-gála, az első működő lézer és a kínai kulturális forradalom startja mind ide esik – sőt, az Endeavour utolsó űrrepülése is...

péntek 21:45

A kannabisz 65 felett biztonságos? Öt veszély, amit ismerni kell

👪 Az utóbbi években a kannabiszhasználat rohamosan nőtt az idősebb korosztály körében is: egyre többen fordulnak hozzá krónikus fájdalom, álmatlanság vagy szorongás enyhítésére...

péntek 21:22

Az agy boldogsághormonja titokban gerjesztheti a fülzúgást

😱 Már régóta ismert, hogy a fülzúgás – vagyis az állandó, zavaró csengés, búgás vagy zúgás a fülben – milliók mindennapjait nehezíti meg világszerte...

péntek 21:12

A Googlebook berobban: kilép a Chromebook árnyékából?

Az Apple innovációi után a Google és az Intel is lépett: együtt mutatták be közös notebookjukat, amelyet egyelőre csak Googlebook néven emlegetnek...

péntek 21:01

A Zee TV bárhol a világon: így nézheted VPN-nel

Zee TV-t szeretnél nézni Indián kívül, akár külföldi utazás vagy tartósabb kintlét alatt?..

péntek 20:57

A ConcernedApe új játéka nagyobb, sötétebb és kegyetlenebb

Eric Barone, a Csillagharmat-völgy (Stardew Valley) megalkotója az utóbbi években minden energiáját következő játékára, a Kísértetjárta Csokoládékészítőre (Haunted Chocolatier) fordítja...

péntek 20:45

A nagy tőzsdék vizsgálatot sürgetnek a Hyperliquid manipulációs kockázatai miatt

📊 A Hyperliquid nevű decentralizált derivatív tőzsde egyre nagyobb figyelmet kelt az amerikai pénzügyi óriások, a CME Group és az Intercontinental Exchange (ICE) körében...

péntek 20:33

Az 5%-os hozam visszatért a hosszú amerikai állampapírra, 2007 óta először

💰 Először 19 év után ismét 5%-os hozammal kínáltak 30 éves amerikai államkötvényt, ami jelentős fordulatot hozott a befektetői piacon...

péntek 20:23

A tudósok megfejtették az antarktiszi tengeri jég rejtélyes összeomlását

Egy lényeges szempont, hogy az Antarktisz körüli tengeri jégtakaró szinte példátlan gyorsasággal kezdett eltűnni 2015-től, pedig azt megelőzően évtizedekig stabilnak tűnt...

péntek 19:56

A láthatatlan koleszterinveszély, amelyről minden ötödik ember nem tud

Többek között több mint 20 000 önkéntes adatait elemezték kutatók, és kiderült: számos embernél akkor is fennáll a szív- és érrendszeri betegségek kockázata, ha a hagyományos kezeléseket megfelelően kapják...

péntek 19:45

Az RTX 5090 még drágább lehet: jöhet a százezres drágulás?

Ha valaki mostanában tervezte, hogy új grafikus kártyára vált, valószínűleg jobban teszi, ha még vár: az RTX 5090 eddig sem volt olcsó, de a legújabb hírek szerint az Nvidia további, akár 100 ezer forintos áremelést fontolgat...

péntek 19:34

A kínai tiltás marad: Nvidia MI-chipekre továbbra sincs engedély

Donald Trump, Jensen Huang és több nagyvállalati vezető is Kínába utazott, hogy javítsák az országok közötti kereskedelmi kapcsolatok helyzetét...

péntek 19:23

A Kanye West-koncertet Indiában biztonsági okokból felfüggesztették

Kanye West indiai fellépésére ismét nem kerül sor: a május 23-ra tervezett, az újdelhi Jawaharlal Nehru Stadionban tartandó koncertet a szervezők biztonsági aggályok miatt törölték...

péntek 19:12

Az OpenAI rákapcsol: Távoli hozzáférés a Codexhez iPhone-on, iPaden és Androidon

📱 Érdekes fejlemény, hogy egyre több fejlesztő mostantól a telefonjáról felügyelheti és irányíthatja a kódolási feladatait, bárhol is jár éppen...

péntek 19:02

Az MI-chatbotok felerősítik a nőkkel és lányokkal szembeni erőszakot – sürgős szabályozás kell

Az automatizált csevegőrobotok elárasztották az internetet, átalakítva a nőket és lányokat érő bántalmazás formáit, miközben egészen új, veszélyes módszereket is teremtenek...

péntek 18:45

A B2-vitamin árnyoldala: segítheti a rákos sejtek túlélését

😷 Felmerül a kérdés, vajon minden, ártalmatlannak tartott vitamin valóban csak jótékony hatással van-e a szervezetünkre...

péntek 18:34

A halált is kijátszotta: Emilia Clarke két agyvérzést élt túl

💪 A világhírű színésznő, Emilia Clarke a mai napig hihetetlennek tartja, hogy életben maradt két súlyos agyvérzés után, amelyeket a Trónok harca (Game of Thrones) forgatása alatt szenvedett el...