2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:25

Az Egyesült Államok a szabályozatlan peptidek rabja: hatásosak egyáltalán, és biztonságosak?

💉 Felmerül a kérdés, hogy mennyire valóban hatékonyak, vagy akár biztonságosak azok a peptidkészítmények, amelyek jelenleg az egészségmegőrzés és a hosszú élet reményében terjednek az Egyesült Államokban...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 7/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy izgalmas túlélőjáték, amely George Orwell 1984 című klasszikusának világát idézi...

MA 09:01

Az okosóra és az MI korán kiszúrhatja a bajt

Lassan minden csuklón ott virít egy okosóra vagy okoskarkötő. Ezek már régóta nem csak a lépésszámot vagy a pulzust figyelik: a korszerű modellek alvást, bőrhőmérsékletet, légzésszámot, véroxigént, szívritmus-változékonyságot is képesek mérni, sőt, akár arra is riasztanak, ha valami baljós jelet érzékelnek...

MA 08:49

A NASA mentőakciója elindult a zuhanó Swiftért

🚀 Érdemes megérteni, hogy a NASA új, különleges mentőakcióba kezdett: egy robotűrszondával igyekszik megmenteni az évtizedek óta szolgáló, és most veszélyesen zuhanó Neil Gehrels Swift Obszervatóriumot (Neil Gehrels Swift Observatory)...

MA 08:13

Az ősi marsi kőzet szénben dúskál – hogy miért, rejtély

🪐 Amikor először egy marsi kőzet felszínén összetett szerves szén jelenlétét észlelték, a tudósok hirtelen egy régóta húzódó kérdés kapujában találták magukat: vajon élet nyomait találtuk meg, vagy valami egészen más magyarázat rejtőzik a színfalak mögött?..

MA 08:01

A hőhullám közepén 842 ezer amerikai háztartás maradt áram nélkül

Fontos kérdés, mennyire bírja az Egyesült Államok infrastruktúrája a tomboló hőhullámot...

MA 07:49

A Google AI-tanulókísérlete olyan, mint egy karcsúsított NotebookLM

A Google eddig is számtalan MI-eszközt kínált a tanulni vágyóknak. A NotebookLM például képes feldolgozni és kreatívan átalakítani az általad feltöltött forrásokat – gondolj csak podcastokra vagy gondolattérképekre...

MA 07:37

Az USA 250. születésnapja próbára teszi az MI-vezérelt kollektív intelligenciát

Érdekes felvetés, hogy mi történne, ha 250 véletlenszerűen kiválasztott embert összehívnánk, hogy megvitassanak egy fontos kérdést: vajon milyen eredményt adna, ha egy közös kihívást kellene megoldaniuk?..

MA 07:25

A JadePuffer MI-ügynöke teljesen automatizált egy zsarolóvírus-támadást

Fontos kérdés, mire képesek a legújabb technológiák, ha rossz kezekbe kerülnek: a kutatók most először bukkantak olyan zsarolóvírusra, amelyben minden lépést egy önálló, nagyméretű nyelvi modell vezérelt...

MA 07:01

A világbajnokság helyszínein több mint 600 drónt foglalt le az FBI

🛡 Az FBI június 11-e óta folyamatosan figyeli a FIFA-világbajnokság helyszíneit és környékét, mióta rengeteg drónt kaptak el olyan légterekben, ahol repülni szigorúan tilos...

MA 06:49

Amikor cserbenhagy a szaglás: az illatok nélküli mindennapok

😫 Negyvenévesen Chrissi Kelly egyszer csak elvesztette a szaglását, miután egy vírusos betegség ledöntötte a lábáról Csehországban tett családi látogatása után...

MA 06:24

A NASA egy évre teljesen elzárja az önkénteseket a külvilágtól

Aki már kezd belefáradni a földi forgatagba, annak új lehetőség nyílik: a NASA önkénteseket keres, hogy egy teljes évet töltsenek elszigetelve, mintha egy másik égitestre készülnének...

MA 06:05

Történelmi események a mai napon (Július 5.)

Ma olyan nap, amikor hidak nyílnak, birodalmak csapnak össze, országok születnek, és a popkultúra is történelmet ír...

szombat 18:32

A másolás–beillesztéses átverés, ami átveheti az irányítást a Mac-ed felett

🔑 Első pillantásra úgy tűnt, hogy egy egyszerű műveletet kérnek: másold be ezt a parancsot a Mac-ed parancssorába, aztán megoldódik a problémád...

szombat 18:02

Az öt Android-mobil, amit a Moto G Power helyett vegyél

📱 Külön említést érdemel, hogy a középkategóriás okostelefonok kínálata soha nem volt ennyire izgalmas...

szombat 17:31

A Midjourney visszavág: a bíróságon valljanak MI-használatukról a stúdiók

🛠 A Midjourney szembeszállt a nagy hollywoodi stúdiókkal, miután azok tavaly beperelték szerzői jogsértés miatt, mert az MI-alapú képalkotó rendszer képes Supermanről, Batmanről és más híres karakterekről képeket generálni...

szombat 17:01

A Webb-űrtávcső felforgatja a világegyetemről alkotott képünket

Ha a kozmikus rejtélyek foglalkoztatnak, érdemes a James Webb-űrtávcső (JWST) képeire vetni egy pillantást...

szombat 16:31

Az ARToken PhaaS leleplezi az EvilTokens Microsoft 365 adathalász eszköztárát

Érdekes jelenség, hogy az elmúlt időszakban egyre kifinomultabb adathalász szolgáltatások jelentek meg, amelyek célkeresztjében a vállalati felhasználók állnak...

szombat 16:01

Az új brit kriptószabályok fellendítenék a kereskedelmet, de jönnek a buktatók

💸 Érdekes felvetés, hogy az Egyesült Királyság új kriptovaluta-szabályozása globális kereskedelmi lehetőségeket nyithat meg, miközben komoly kihívásokat is tartogat...

szombat 15:30

Az ősi „hobbitok” a komodói varánuszok maradékain lakmároztak

Érdemes megvizsgálni, hogy az indonéziai Flores szigetén egykor élt, Homo floresiensisnek nevezett ősi emberfaj, vagyis a hobbitok, ténylegesen mennyire voltak találékonyak túlélésük során...

szombat 15:01

Az Amazon frissített Fire HD 10-je kicsivel több memóriával érkezik

Az Amazon megújította népszerű Fire HD 10 táblagépét, az egyik legfontosabb változás pedig a memória bővítése: az eddigi 3 GB helyett mostantól 4 GB RAM-mal működik az eszköz...

szombat 14:31

Az adatbiztonság alapja összedőlt – lehet, hogy nincs rá megoldás

Kezdetben a titkosított számítási rendszerek megoldásai technikai áttörést ígértek az érzékeny adatok védelmében...

szombat 11:31

A tűzijáték mellé sarki fény: tucatnyi államban villanhat az ég a hétvégén

🎆 Az Egyesült Államok Függetlenség napja hétvégéjén nemcsak a látványos tűzijátékokban gyönyörködhetnek a lakosok, hanem a szokottnál is élénkebb sarki fény is megjelenhet az éjszakai égbolton...

szombat 10:36

A július 4-i hőhullám 1776-ban szinte lehetetlen lett volna

🔥 Július mindig a legmelegebb hónap az Egyesült Államokban, de napjainkban a hőhullámok sokkal intenzívebbek, mint amilyeneket Benjamin Franklin, Thomas Jefferson vagy a többi alapító atya megtapasztalhatott volna...

szombat 10:25

Az Endeavour űrsiklót még idén testközelből csodálhatjuk Los Angelesben

🚀 A NASA legendás űrrepülőgépe, az Endeavour hamarosan végleges helyére kerül a Los Angeles-i Kaliforniai Tudományos Központban...

szombat 10:01

A Hold végzete: mi vár rá a távoli jövőben?

🔈 Amikor az ember felnéz az égre, a Hold szinte mindig ott van, mégis hajlamosak vagyunk természetes társunkat magától értetődőnek venni...

szombat 09:25

A francia hőhullám sokkja: riasztó halálozási adatok

Franciaországot június végén történelmi hőhullám sújtotta, amelynek során a halálozások száma soha nem látott mértékben megugrott...

szombat 09:13

Az agy rejtett kulcsa: a munkamemória szüli a tudatot?

💡 Előfordul, hogy valaki átlép egy ajtón, és azonnal elfelejti, miért is ment be a helyiségbe...

APP
szombat 09:12

APPok, Amik Ingyenesek MA, 7/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ICD-10 Dictionary (iPhone/iPad)Az alkalmazás segítségével egyszerűen kereshetünk ICD-10 kód, betegség neve vagy akár tünet alapján is...