2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 14:36

A nagy vízválság: Megállíthatatlanul apad bolygónk legértékesebb kincse

Az emberiség időtlen idők óta használja, szivattyúzza, kizsigereli a Föld édesvízkészleteit – ám az utóbbi évtizedekben már olyan tempóra kapcsoltunk, amely fenntarthatatlan...

MA 14:01

A súlytalanságban gurul a D20: ilyen a D&D az űrben

Nem hiszem el, de a Dungeons & Dragons (vagyis a D&D) végre meghódította az űrt!..

MA 13:57

A mesterséges intelligencia forradalma: kiberfenyegetések, amelyekre a vezetőknek most készülniük kell

A digitális világot soha nem látott sebességgel alakítja át a mesterséges intelligencia...

MA 13:45

Az adathalászok újra támadnak: veszélyben a Snowflake-ügyféladatok

⚠ Több mint egy tucat vállalat adatai kerültek illetéktelen kezekbe, miután egy felhőalapú szolgáltatásintegrátor rendszereit feltörték, és ellopták az azonosításra szolgáló tokeneket...

MA 13:34

Az MEXC pengeélen a káosz és a szabadság között

⚠ A világ egyik legnagyobb kriptotőzsdéjénél új vezérigazgató váltja a korábbi irányt: Vugar Usi tapasztalt piaci szereplőként vette át az MEXC élére, ahol máris rendhagyó stratégiát hirdetett...

MA 13:12

Az áttörés küszöbén: jön a visszafordítható férfi fogamzásgátló?

💫 Amerikai kutatók rendkívüli eredményt értek el a férfiak számára: sikerült olyan nem hormonális, biztonságos és visszafordítható fogamzásgátló módszert kifejleszteniük, amely hosszú távon 100%-os hatékonysággal képes leállítani a hímivarsejtek termelődését...

MA 13:01

Az űrben ébred az MI szuperszeme: már okos a műhold

A fejünk felett, mintegy 500 kilométerrel, egy apró műhold most nemcsak fotóz, hanem rögtön elemez is – mindezt mesterséges intelligenciával felturbózva...

MA 12:56

Az MI-ügynökök kora: így alakítják át a cégeket

🤖 A cégek életében új korszak kezdődik, ahogyan az MI-ügynökök egyre nagyobb teret nyernek, és az automatizálás egy új szintjét teremtik meg...

MA 12:24

A spanyol őskor kőtitkai: rejtett sírok és elfeledett hiedelmek

📸 A középkori Spanyolországban két férfit is eltemettek egy őskori kőmonumentumban, amelyet évezredekkel korábban építettek...

MA 11:35

Az igazi kvantumveszély: tényleg csak csillagenergiával feltörhető a Bitcoin?

⚠ Különösen igaz ez akkor, ha a Bitcoin jövőjét a kvantumszámítógépek fenyegetése felől akarjuk vizsgálni...

MA 10:57

Az Elon Musk–OpenAI-per: Ingyen kér 54 ezermilliárd forintot?!

🤔 Elon Musk komolyan harcba száll az OpenAI ellen, és most újra rátett egy lapáttal: ha megkapná azt a fenséges 150 milliárd dolláros (azaz 54 ezermilliárd forintos) kártérítést, nem engedné a saját zsebébe csorogni...

MA 10:50

Az amerikaiak 7800 milliárd forintját nyelte el a kiberbűnözés

A tavalyi év minden eddiginél súlyosabb volt az Egyesült Államokban a digitális csalások területén: a veszteségek meghaladták a 21 milliárd dollárt (körülbelül 7800 milliárd forintot)...

MA 10:43

Az új Sony Bravia tényleg forradalmasítja a tévézést?

A Sony új, Bravia True RGB Mini LED technológiával rukkolt elő, amellyel minden eddiginél élénkebb színeket és nagyobb fényerőt ígér a házimozi-szerelmeseinek...

MA 10:36

Az iráni hekkerek új offenzívát indítanak az Egyesült Államok ellen

Kezdetben csupán célzott próbálkozásoknak tűntek az iráni kibertámadások, de mostanra a támadók fokozott lendülettel vették célba az Egyesült Államok legkritikusabb infrastruktúráját...

MA 10:01

A mesterséges intelligencia már magát is védi: jön a Glasswing-projekt

Az Anthropic egy teljesen új fejezetet nyitott az MI-alapú kibertámadások elleni harcban: elindult a Glasswing-projekt...

MA 09:38

Az űrorvoslás forradalma: Miért roppan össze testünk a Marson?

🚀 Előbb-utóbb emberi telepesek érkezhetnek a Marsra, de az odajutás technológiai és fiziológiai kihívásai még mindig óriásiak...

MA 09:29

Az Artemis II minden eddiginél messzebbre juttatta az embert

Az űrkutatás történetében ritka pillanatnak lehettünk tanúi: az Artemis II legénysége minden eddiginél távolabb jutott a Földtől, amikor az Orion űrhajó megkezdte holdkerülő repülését a Hold túlsó oldala felett...

MA 09:22

Az MI-botok háborúja: a Cloudflare és a GoDaddy visszavág

Napjainkban az internet egyre inkább kiszolgálja az MI-ügynökök igényeit, miközben a weboldal-tulajdonosok érdekei háttérbe szorulnak...

MA 09:15

Az okos ébresztő, amely belelát az agyadba

💻 Senki sem szereti, amikor az ébresztőóra a legmélyebb álomból rángatja ki...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     VestClaw (iPhone/iPad)A VestClaw egy innovatív befektetési alkalmazás, amely gördülékennyé és érthetővé teszi a befektetések világát...

MA 09:08

Az Apple dilemmája: a MacBook Neo sikere visszaüt

Az Apple minden várakozását felülmúlta a MacBook Neo iránti kereslet, és ez komoly ellátási gondokat okoz...

MA 09:01

Az első élő űrvideóhívás: a Holdról az űrállomásra

📺 Négy asztronauta úttörő küldetésre indult a Hold felé az Artemis II-misszió részeként...

MA 08:58

A Binge új appja előre jelzi a frászt hozó jeleneteket

😱 Ilyen, amikor valaki végre rálel egy olyan alkalmazásra, amely az egész filmet nyomon követi, és még a horrorjelenetek előtt is szól, ha közeleg egy hirtelen ijesztés...

MA 08:50

Az Androidon végre te szabod a kontroller gombjait

Mostantól minden eddiginél könnyebb lesz a játékvezérlőket testre szabni Androidon. Az Android 17 béta elhozta a natív kontroller-átkiosztás funkciót, amellyel egyszerűen lehet egyedi gombkiosztásokat készíteni: tetszés szerint átvariálhatók a gombok, karok és ravaszok működése, méghozzá rendszerszinten...

MA 08:44

Az MI orvosi diagnózisai olykor veszélyes délibábok

A modern MI-modellek egyre fontosabb szerepet töltenek be az orvosi képalkotásban és diagnosztikában...

MA 08:36

Az AI-alapú RAN berobban: új korszak a vállalati hálózatokban

Az AI-RAN, vagyis a mesterséges intelligenciával működő rádiós hálózat teljesen új dimenziót nyit a vezeték nélküli vállalati infrastruktúrák világában...

MA 08:30

A 2,5 milliárd dolláros csempészbotrány után nagyító alá kerül a Supermicro

🔍 A világ egyik legnagyobb szervergyártója, a Supermicro, nagyszabású belső vizsgálatot indított, miután a cég egyik társalapítóját, Yih-Shyan Wally Liaw-t azzal vádolták meg, hogy több milliárd dollár értékű, Nvidia grafikus gyorsítókkal felszerelt szervereket csempészett Kínába, megsértve az amerikai exportkorlátozásokat...

MA 08:22

Az új kínai hackercsoport napok alatt cégeket dönt romba világszerte

🚦 Egy kínaiul beszélő hackercsoport, a Storm-1175, elképesztő gyorsasággal képes vállalatok és szervezetek teljes rendszereit feltörni, adatokat ellopni, majd zsarolóvírust bevetni...

MA 08:15

Az Amazon S3 Files véget vet az adattárolási káosznak

📦 Egy lényeges szempont, hogy a felhőalapú vállalati adatok zöme ma már objektumtárolókban, elsősorban az Amazon S3-ban található, miközben az MI-alapú ügynökök és fejlesztők továbbra is hagyományos fájlrendszerekben gondolkodnak...