2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 14:02

Az európai vonatbérlet botránya: utasadatok a sötét weben

🚇 Kapaszkodj meg: hackerek kezdték árulni a sötét weben azokat az érzékeny utasadatokat, amelyeket nemrég loptak el az Eurail hollandiai szervereiről...

MA 13:37

Megakadt az MI-forradalom: új válság söpör végig az irodákon

📈 Szinte minden brit informatikai biztonsági csapat első számú célja az MI alkalmazása, de a dolgozók tudása nem tart lépést az elvárásokkal...

MA 13:19

Az AI miatt tényleg hiánycikk lett a menő Steam Deck?

💻 Ne is álmodj arról, hogy könnyen új Steam Deck-hez jutsz, főleg, ha a régi, klasszikus modellt szeretnéd!..

MA 13:01

Az Apple új Macjei és iPadjei felkavarják az állóvizet

💻 Március 4-én ismét az Apple kerül reflektorfénybe: a vállalat egy különleges eseményt jelentett be, amelyen várhatóan több, régóta várt eszközt is bemutathat...

MA 12:56

Az ingyenes Affinity tarol – valóban kiválthatja az Adobe-t?

Nehéz elhinni, de a kreatív szoftverpiac egyik leglátványosabb fordulatát a Canva hozta el, amikor felvásárolta a nagy múltú Affinity csomagot, és minden fő funkcióját ingyenessé tette...

MA 12:37

Az Adani 37 ezermilliárdot pumpál MI-központokba

Az indiai Adani-csoport egészen elképesztő, 37 ezermilliárd forintos beruházást tervez a következő évtizedben, hogy mesterségesintelligencia-alkalmazások futtatására alkalmas adatközpontokat fejlesszen szerte Indiában...

MA 12:01

Az OpenClaw megalkotója az OpenAI-hoz csatlakozik – forrong az MI-világ

Az OpenClaw az utóbbi hónapok egyik legnagyobb szenzációja a mesterséges intelligencia rajongói és fejlesztői körében...

MA 11:55

Az orosz stabilcoin, amely dacol az amerikai szankciókkal

🦁 Érdemes megvizsgálni, hogyan marad talpon egy kriptócég, amikor a világ egyik legerősebb gazdasági hatalma igyekszik elszigetelni...

MA 11:37

Az Amazon kihátrál: lezárul a rendőrségi megfigyelési partnerség

🚫 Az Amazon tulajdonában álló Ring okos kapucsengő-márka megszakította együttműködését a rendőrségi megfigyeléstechnikával foglalkozó Flock Safety-vel...

MA 11:23

Az MI-botrány, ami felforgatta Hollywoodot: a Seedance ügye

Ami kezdetben ártalmatlannak tűnt, most hatalmas hullámokat vet a digitális világban...

MA 11:21

Az új napenergiás folyadék átírhatja a fűtés szabályait

A fűtés a világ energiaigényének közel felét teszi ki, melynek kétharmadát ma még fosszilis tüzelőanyagok – mint a gáz, az olaj és a szén – elégetésével fedezzük...

MA 11:01

Az ellopott Eurail-adatok már a dark web piacán

🚁 Az Eurail néhány hónappal ezelőtt adatlopás áldozatává vált; a vállalat több mint 250 000 kilométernyi vasúthálózathoz biztosít hozzáférést Európában...

MA 10:57

A hackerek az ismert szexjátékszer-gyártó adatait is megszerezték

🔒 Jelentős, hogy a japán Tenga vállalat kibertámadás áldozatává vált, ami miatt ügyféladatok is illetéktelen kezekbe kerültek...

MA 10:49

Az iOS 26.4 bétája megérkezett: ütős újdonságok zenében és üzenetküldésben

Érdekes, hogy az Apple nagyon hamar, mindössze egy héttel a legutóbbi hivatalos frissítés után már elérhetővé tette a fejlesztők számára az iOS 26...

MA 10:41

A holland rendőrség döbbenetes bakija: ők szivárogtatták ki a titkos aktákat

Érdekes felvetés, ki a felelős, amikor egy adatvédelmi botrány hátterében nem profi hackerek, hanem maguk a hatóságok állnak...

MA 10:33

Az Apple végre rendet tett: egy gombbal válthatsz hang és videó között

Mostantól az Apple Podcasts alkalmazásban nem kell választanod, hogy hallgatnád vagy néznéd a kedvenc műsoraidat...

MA 09:57

Az Apple végre csatlakozik az Android titkosított üzeneteihez – vagy mégsem?

Nagy bejelentés: az Apple most kezdte tesztelni az iOS 26.4 fejlesztői bétában az RCS-üzeneteket, end-to-end titkosítással (E2EE)...

MA 09:49

Az Apple betör a videós podcastek piacára – reszkessetek, YouTube, Spotify, Netflix!

Az Apple idén tavasszal teljes gőzzel rákapcsol a videós podcastekre. Mostantól az Apple Podcasts alkalmazás megújult, így a felhasználók végre könnyedén válthatnak nézés és hallgatás között ugyanabban a lejátszási listában, és ami a legjobb: a picture-in-picture módnak hála közben még csetelni is lehet a haverokkal...

MA 09:42

A KPMG-t is megrázó AI-botrány: vizsgacsalás mesterfokon

⚠️ A KPMG ausztráliai részlegénél egy partner szépen besétált a tiltott AI-zónába: hogy simán átmenjen egy belső, mesterséges intelligenciáról szóló vizsgán, mesterséges intelligenciát hívott segítségül a kérdésekhez – erre viszont 2,6 millió forint (10 000 ausztrál dollár) bírság lett a vége...

MA 09:33

A Galaxy S26 véget vet a kukkolásnak: Privacy Display

Elhiszed, hogy végre nem kell sunyi tekintetek elől bujkálnod a metrón?..

MA 08:57

A Rode nagy dobása: mikrofonod közvetlenül az iPhone-hoz csatlakozik

Nem hiszem el, de végre rájöttek a Rode-nál, hogy mikrofonjainkat nem kell mindenáron drótokkal, kütyükkel, műanyag herékkel összebilincselni, csak hogy szóljon a hangunk az iPhone-ba vagy iPadbe...

MA 08:48

Az MI átveszi az irányítást: aggódhatnak a fejlesztők – vége a ló–ember románcnak?

Ember és mesterséges intelligencia most olyan, mint egy kentaur: félig ember, félig gép, együtt ütősebbek, mint külön-külön...

MA 08:43

A Ring-kamerák sötét oldala: kutyakereséstől tömeges megfigyelésig

A Super Bowl alatt bemutatott Ring Search Party funkció sokakat meglepett: a kedves reklám, amelyben a kütyü a házi kedvenc megtalálásában segít, komoly adatvédelmi aggályokat vetett fel...

MA 08:33

Az infostealer-banda már az OpenClaw zsebében kotorászik – nagy a baj

Na most figyelj: az OpenClaw AI‑asszisztens elképesztő gyorsasággal lett népszerű, szinte mindent kezel a gépeden – beleértve az e-maileket, chatalkalmazásokat, helyi fájlokat, sőt, belép még mindenféle online szolgáltatásba is...

MA 08:25

Az új fogyasztószer sötét oldala: amikor már semmi sem érdekel

Egyre többen harapnak rá a GLP-1 nevű csodafogyókúrás gyógyszerre, főleg mióta a Super Bowl reklámjaiban is ömlöttek velünk szembe ezek a szerek...

MA 08:18

Az MI forradalmasíthatja az oktatás jövőjét – de csak együtt

📚 Az oktatás évszázadokon át szinte változatlan maradt: a tanítási módszerek, az osztálytermi rend és a személytelen, egységes oktatás makacsul kitartanak, miközben az élet minden területét gyökeresen átalakítják a technológiai újítások...

MA 08:01

Az első engedély a hosszú csend után: Hongkong beizzítja a kriptópiacot

🔥 Hongkong végre megint mozgolódik kriptófronton: a Victory Fintech (VDX) megkapta a hivatalos engedélyt a helyi pénzügyi hatóságtól, így mostantól digitális eszközkereskedési platformként működhet, és egyből felkerült az elitlistára a többi 11 jóváhagyott platform mellé...

MA 07:58

Az OpenClaw: hype vagy valódi forradalom?

Különösen igaz ez akkor, ha az internet hirtelen felkap egy új technológiát, majd szinte azonnal kiderül, hogy a háttérben jóval kevesebb valós újítás rejlik, mint azt elsőre gondoltuk...

MA 07:49

Az Alibaba új AI-ja berobban: Qwen3.5, a kínai chatbotfront ügynöke

🔥 Vasárnap este, amikor a kínai újév kezdetét vette, az Alibaba pimasz mosollyal bejelentette és kiadta az új Qwen3...