2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:45

Az FBI vészjelzése: támadás alatt a Teams, Outlook és OneDrive

A Microsoft 365 felhasználói új fenyegetéssel szembesülnek, amely főként a Teams, az Outlook és a OneDrive szolgáltatásait érinti...

MA 09:28

A gleccserek titokban hemzsegnek az élettől

A hatalmas és lenyűgöző gleccserek nemcsak fagyott víztömegek: rejtett, eleven élőhelyek is...

MA 09:19

A rejtélyes koboldcápa végre élve került lencsevégre

Felmerül a kérdés, hogy miféle rejtett csodákat őriznek még a Föld mély óceánjai, hiszen most először sikerült élő koboldcápát lencsevégre kapni a természetes élőhelyén...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 6/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás gyorsan elérte az első helyet a fizetős oktatási alkalmazások között az App Store-ban...

MA 09:02

A brit kormány betiltaná a közösségi médiát 16 év alattiaknak, éjszakai korlátozásokkal

Jó példa erre, hogy a brit kormány bejelentette: 2027 tavaszától minden 16 év alatti számára betiltják a közösségi média használatát...

MA 08:55

Az európai kereskedelmi űripar kulcsküldetését megint lefújták

Egy újabb sikertelen indítási kísérlettel folytatódott az európai űripar legújabb reménysége, az Isar Aerospace Spectrum rakétájának története...

MA 08:47

A Tensordyne Napier bejelentve: forradalmi, logaritmikus MI-számítás

⚡ A Tensordyne bemutatta vadonatúj, Napier nevű MI-gyorsítóját, amely 3 nm-es technológián alapul, és különlegessége, hogy a szokásos szorzási műveleteket logaritmikus matematikával helyettesíti...

MA 08:36

A Google Earth repülőszimulátora végre a böngésződben

A Google Earth mostantól nemcsak a Föld felfedezését teszi lehetővé, hanem egy szórakoztató repülőszimulátor módot is kínál, amelyet már közvetlenül a böngészőből elérhetsz...

MA 08:28

Véget ér az olajháború? Újra megnyílik a Hormuzi-szoros

Egy friss megállapodás értelmében péntektől teljesen megnyílik a Hormuzi-szoros, amely az elmúlt hónapokban a világtörténelem egyik legjelentősebb olajválságának középpontjában állt...

MA 08:19

Az űrháború küszöbén: a DARPA cserélhető műholdakat fejleszt

Az amerikai védelmi kutatások új fázisba lépnek, ahogy egyre nagyobb hangsúlyt kap a világűr stratégiai jelentősége...

MA 08:01

A bíró kiszórta az MI-vel érvelő két ügyvédet

Tipikus eset, amikor a technológia túl gyorsan lép be a hagyományos szakmákba...

MA 07:54

Az új GLP-1 diabétesztabletta látványos fogyást és vércukorszabályozást hoz

Egy forradalmian új, még fejlesztés alatt álló gyógyszer jelentheti a jövőt a 2-es típusú cukorbetegség kezelésében...

MA 07:46

A kínai gazdaság tovább gyengül: három év után esik májusban a kiskereskedelem

📈 Májusban a kínai gazdaság újabb gyengülést mutatott, amikor a kiskereskedelmi eladások több mint három év után először csökkentek...

MA 07:37

A Xiaomi hozta el a Tesla 2014-es ígéretét: könnyebb töltés

⚡ A vezetékes villanyautó-töltés talán legkellemetlenebb része a nehéz, koszos kábelek pakolgatása, de ez hamarosan a múlté lehet egy vadonatúj kínai fejlesztésnek köszönhetően...

MA 07:19

A Galaxy Book 6 Edge Snapdragon X2 Elite-tel: brutális erő, borsos ár

🚀 A Samsung ismét bővíti népszerű laptopcsaládját, méghozzá a Galaxy Book 6 Edge modellel...

MA 07:10

A japán jegybank 1%-ra emelt: 1995 óta nem volt ilyen

💸 A japán jegybank több mint harminc év óta először emelte 1%-ra az alapkamatot, elérve a legmagasabb szintet 1995 óta...

MA 07:01

Drágul az ingatlanpiac, a 23 milliárdos építő 55 ezer dollárt ad házanként

🏡 Többek között a járvány idején az ingatlanpiac fellendülése soha nem látott nyereséget hozott az Egyesült Államok legnagyobb lakásépítő vállalatainak, amikor az árak az egekbe szöktek, és hatalmas kereslet alakult ki...

MA 06:55

A Cisco javította a zéró napos SD‑WAN vManage hibát

🚀 A Cisco kritikus sebezhetőséget javított a Catalyst SD-WAN Manager szoftverben, miután ismeretlen támadók sikeresen kihasználták a hibát, és rootjogosultságot szereztek...

MA 06:36

Az Android Auto megöli a Gemini-hívásokat: csak hibaüzenet marad

🚗 Az Android Autót használók egyre nagyobb bosszúsággal szembesülnek: sorra hibát jelez a Gemini, amikor hívást próbálnának indítani...

MA 06:28

Az MI kiüresítheti az iparágakat – vészharangot kongat Satya Nadella

⚠ A mesterséges intelligencia robbanásszerű fejlődése rákényszerítheti a vállalatokat, hogy teljes üzleti modelljüket átgondolják...

MA 06:19

Az első nagy deepfake-pornó razzia: tényleg működik az új amerikai törvény?

👮 Az amerikai igazságügyi minisztérium pénteken bejelentette, hogy sikeresen lefoglalta a CFAKE...

MA 06:05

Történelmi események a mai napon (Június 16.)

Valentina Tereskova történelmi űrrepülése, a Ford és az IBM alapítása, valamint a spanyol-brit háborúhoz kötődő gibraltári ostrom egyaránt ezen a napon történt...

MA 06:01

A Kraken berobban: jönnek az örökös határidők az USA-ban

💥 Az amerikai kriptoszektor hatalmas változáson megy keresztül: végre megjelentek a szabályozott örökös határidős ügyletek...

hétfő 21:56

A nagy vita: kell-e megmosni a rizst főzés előtt?

🍚 A rizs több milliárd ember mindennapi tápláléka világszerte, elkészítése kapcsán azonban rengetegen vitáznak: meg kell-e mosni főzés előtt, vagy felesleges időpazarlás?..

hétfő 21:34

Az ADHD felismerése nem erősségünk – az MI-é annál inkább

A figyelemhiányos hiperaktivitás-zavar, vagyis az ADHD hivatalos diagnózisa sokak számára elérhetetlen: az időhiány, a költségek, a kevés elérhető szakorvos és az általános tájékozatlanság mind nehezítik az utat...

hétfő 21:23

A netet elárasztották a botok – mit jelent ez nekünk?

Alig néhány év alatt gyökeresen megváltozott az internet felhasználói összetétele. Már nem emberek, hanem automatizált rendszerek bonyolítják le a webes kérések többségét – derül ki a Cloudflare Radar mérőrendszerének statisztikáiból, amelyek szerint világszerte a forgalom 57,4%-át úgynevezett agentikus, vagyis parancsokra dolgozó MI-botok generálják, míg a valódi emberek csak 42,6%-ot képviselnek...

hétfő 21:12

Az Xbox leépít, a Microsoft szerint kevés pénz jön a játékokból

A Microsoft vezetősége szerint a videójátékos üzletág egyik legnagyobb nehézsége, hogy nem termel elég bevételt...

hétfő 21:01

A kínai hackerek feltörték a REDCap szervereket, orvosi kutatási adatokat loptak

🔒 Jó példa erre, hogy Észak-Amerika egyik orvosi kutatóintézetének gépeit kínai kötődésű hackerek támadták meg, és hónapokon át észrevétlenül lopták az érzékeny adatokat...

hétfő 20:34

Az amerikai szigor miatt turbófokozatba kapcsol az európai technológiai szuverenitás

A világ egyik legnagyobb MI-fejlesztője, az Anthropic váratlanul leállította két fejlett kiberbiztonsági modellje, a Mythos 5 és a Fable 5 elérhetőségét az egész világon, miután amerikai kormányzati előírás erre kötelezte...