2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Mutazione (iPhone/iPad)A Mutazione egy kalandjáték, amelyben a vidéki kisváros hétköznapi pletykái és a természetfeletti események keverednek...

MA 06:06

Történelmi események a mai napon (Március 19.)

Mi történt ma a történelemben? A Mongol Birodalom győzelmével véget ér a Szung-dinasztia Kínában 🇨🇳, az angol alsóház eltörli a Lordok Házát 🏛️, a náci csapatok megszállják Magyarországot 🇭🇺, és a Tuskegee Airmen egységet hivatalosan aktiválják ✈️...

szerda 12:01

Az IKEA okosotthona: menő és olcsó, mégsem működik

📦 Az IKEA új, mindenki számára elérhető okos kütyüi végre megérkeztek! A gondolat izgalmas: menő, okos izzók, kapcsolók, dugaljak, mind kezdőáron, már 2400 forinttól...

szerda 11:34

Az MI-asszisztensek kijátszása: veszélyes parancsok az orrod előtt

🛡 Egy új, böngészőkben alkalmazható trükk lehetővé teszi, hogy rosszindulatú parancsokat rejtsenek el közvetlenül a weboldalakon anélkül, hogy azt az MI‑asszisztensek észrevennék...

szerda 11:23

Az iPhone 16e megkapja az álomfrissítést, amiről az Android csak álmodik

😍 Fontos kérdés, hogy mennyire lehet egy okostelefont olcsón, akár otthon is fejleszteni, főleg, ha új funkciók utólag is elérhetők lesznek...

szerda 11:13

Az USA-ban berobban a vastagbélrák az 50 év alattiaknál

💉 Az Egyesült Államokban egyre fiatalabbakat érint a vastagbélrák, amely immár a leggyakoribb daganatos halálok az 50 év alattiak körében...

szerda 11:01

Az új Google Gemini már mindent tud rólad – ráadásul ingyen

A Google újraírta a szabályokat: mostantól a Geminiben mindenki számára ingyenesen elérhető az a funkció, amellyel valóban személyre szabott válaszokat adhat...

szerda 10:50

Az orosz hackerek új kártevőhulláma elözönli a GitHubot

Jellemző példa erre, hogy napjaink egyik legagresszívebb ellátásilánc-támadása, a GlassWorm ismét lecsapott: több mint 400 fejlesztői csomag, forráskódtár és bővítmény vált fertőzötté olyan platformokon, mint a GitHub, az npm, a Visual Studio Code és az OpenVSX...

szerda 10:43

Most te vagy a hangmérnök: itt az új Spotify-mód

🎧 A Spotify most végre bevezette az Exkluzív módot (Exclusive Mode) Windowsra – innentől a szoftver ráteszi a kezét a hangkártyádra, és kiküszöböli, hogy a géped belemotyogjon a zenédbe...

szerda 10:36

Az Apple új titkos fegyvere: láthatatlanul javították a sebezhetőséget

🔒 Az Apple először élesítette a Háttérbiztonsági fejlesztések nevű rendszerét, amellyel anélkül javíthattak egy kritikus WebKit-sebezhetőséget, hogy a teljes operációs rendszert frissíteni kellett volna...

szerda 10:30

Az akcentus rejtett ára: kinek a hangja számít igazán?

Modern munkahelyeken sokan hiszik, hogy a legjobb ötletek maguktól érvényesülnek: az győz, aki meggyőzően érvel, vagy eredeti meglátással áll elő...

szerda 10:23

Az észak-koreai hekkerek kifosztották a Bitrefillt: 19 ezren pórul jártak

💰 Március 1-jén nagyszabású kibertámadás érte a nagy nemzetközi kriptopénzes fizetési és ajándékkártya-platformot, a Bitrefillt...

szerda 10:16

A gyerekkori stressz egész életre beleég a bélrendszerbe

😱 A korai gyermekkori stressz nem csupán mentális sebeket hagyhat maga után, hanem a bélrendszer működését is átrendezheti...

szerda 10:10

Az iráni háború miatt rekordon a benzinárak Amerikában

Miközben az iráni háború felbolygatta a globális olajpiacot, az üzemanyagárak soha nem látott magasságokba emelkedtek Amerikában...

szerda 09:57

Az Apple lopakodva telepíti a biztonsági frissítéseket a készülékeidre

🔒 Az Apple beindította a háttérben letöltődő biztonsági javításokat, amelyek olyan észrevétlenül érkeznek, hogy talán észre sem veszed őket – de a telefonod vagy a géped nagyon hálás lesz érte...

szerda 09:51

Az iráni blokád a Hormuzi-szoros lezárásával fenyeget

Az elmúlt hetek eseményei szinte megbénították a Hormuzi-szoros forgalmát: ahol korábban naponta több mint 100 tanker haladt át, most viszont február vége óta alig 21 tette meg az utat...

szerda 09:44

Az amerikai tőzsde igazi mélypontja még odébb van?

📈 A látszólagos tőzsdei robbanás ellenére a befektetők már hónapok óta gyakorlatilag medvepiacban mozognak...

szerda 09:29

Az albérletpiac most neked dolgozik – érkeznek a durva kedvezmények

Szóval végre valami, aminek most tényleg lehet örülni bérlőként: az albérletpiacon közel 12 éve nem látott szintre emelkedtek az extra kedvezmények...

szerda 09:23

A Meta leteszi az asztalodra a Manus MI-ügynököt

A Meta frissen felvásárolt MI-startupja, a Manus most egy asztali alkalmazással hozza el saját mesterségesintelligencia-ügynökét közvetlenül a felhasználók számítógépeire...

szerda 09:16

Az utolsó tánc: újabb frissítés az FBC: Firebreakhez – de minek?

🔥 Mielőtt bárki eltemetné az FBC: Firebreak-et, fontos tudni, hogy a Remedy kiadta hozzá az utolsó tartalmi frissítést—de cseppet se aggódj, a szerverek még évekig bírni fogják a strapát...

szerda 09:11

A Mistral Forge letaszítja trónjukról az MI-szuperszámítógépeket

👑 A francia Mistral AI bemutatta a Forge nevű platformját, amellyel cégek és állami intézmények saját MI-modelleket építhetnek, továbbfejleszthetnek és folyamatosan igazíthatnak a saját adataikhoz szabva – mindezt teljes körű adatvédelem mellett...

szerda 09:01

Az XRP-n 5,5 milliárd forint a tét: háború a tőzsdén

💸 Fontos kérdés, hogy mi történik az XRP árfolyamával a következő napokban...

szerda 08:57

A nagy Pikachu-leleplezés: Pizzafutár lett a Pokémon GO-ból?

👑 A Pokémon GO valaha csak játék volt, ma már viszont sokkal több: szinte észrevétlenül a városi robotok navigációs segédeszközévé vált...

szerda 08:38

Az Nvidia MI-ügynökplatformja tényleg biztonságos?

🔒 Kezdetben az MI-fejlesztések fő fókuszában a képességek és a funkcionalitás állt, de most először jelent meg egy átfogó biztonsági rendszer már a kiadás pillanatában...

szerda 08:30

Az MI-engedélyezés könnyen vállalati káoszhoz vezethet

Az MI-alapú ügynökök egyre több vállalatnál végzik el helyettünk az érzékeny feladatokat: CRM-rendszerekbe lépnek be, adatbázisokat olvasnak, e-maileket küldenek...

szerda 08:23

A pofonegyszerű trükk, amivel túljárhatsz a ChatGPT eszén

A ChatGPT szinte mindig magabiztos válaszokat ad, bármiről kérdezed is. Olyan határozottsággal érvel, hogy első ránézésre meggyőző lehet – ugyanakkor könnyen elfeledteti, hogy az általa közvetített válasz csupán egy nézőpont, nem pedig az egyetlen érvényes megoldás...

szerda 08:08

Az MI rengeteg tudományos bakit ejt – több mint hinnéd

🤔 Érdemes megvizsgálni, mennyire megbízható valójában egy olyan népszerű MI, mint a ChatGPT, ha tudományos állításokról van szó...

szerda 07:57

Az MI szerinte csak nevetséges fenyegetés a Grand Theft Auto VI-ra

A videojáték-ipar épp az MI robbanását éli, sokan attól tartanak, hogy a generatív modellek elveszik majd az emberek munkáját a legnagyobb franchise-okban is...

szerda 07:50

Az MI-ügynököknek végre van bizonyítható személyiségük?

Érdemes megvizsgálni, miként lehet az online térben biztosan megkülönböztetni az MI-ügynököket működtető embereket a tömeges, névtelen botoktól...