2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 11:20

A mesterséges intelligencia súgója észrevétlenül átformálja a gondolkodásunkat

A mindennapokban már természetes, hogy az MI segítségével írunk e-maileket vagy üzeneteket, hiszen ezek az asszisztensek szinte minden eszközünkön jelen vannak...

MA 11:02

A legfényesebb szupernóvákat újszülött magnetárok pörgetik fel

💫 Például amikor egy hatalmas csillag élete végére ér, a tűzijáték semmihez sem fogható...

MA 10:56

Egy iráni hackertámadás térdre kényszerítette az orvostechnológiai óriást

💉 A világ egyik vezető orvostechnológiai vállalatát, a több mint 53 000 embert foglalkoztató Stryker-t példátlan erejű kibertámadás érte...

MA 10:46

Az olcsó radarfegyver, 20 kilométeres hatótávval – repüléstechnika otthonra

Ha azt hitted, a radar csak a vadászgépek és hadihajók drága játékszere, figyelj: mostantól akár te is villoghatsz vele otthon...

MA 10:29

A nagy figyelemrablás: a közösségi média és az MI csapdája

Belegondoltál már, milyen volt az élet okostelefonok és közösségi média előtt?..

MA 10:20

A mesterséges intelligencia új korszakot nyit a beszerzésben: rekordinvesztíció az Oro Labsnál

🤖 Különösen igaz ez akkor, ha egy vállalat egyszerűbbé és hatékonyabbá szeretné tenni a bonyolult beszerzési folyamatait: az Oro Labs most 36 milliárd forintnyi (100 millió USD) friss tőkét szerzett a világ vezető tőkebefektetőitől...

MA 09:56

Az olajár száguld, a világ lélegzet-visszafojtva figyel

📈 Az olajárak több mint 4 százalékkal emelkedtek újabb támadások után, amelyek a Hormuzi-szorosban nagy hajókat értek...

MA 09:46

Az Xbox‑élmény betör minden Windows 11‑es gépre?

Bő egy hónapon belül jön az Xbox-mód minden Windows 11-es laptopra, asztali gépre és tabletre, úgyhogy a gamereknek érdemes odafigyelni!..

MA 09:38

Az új PhantomRaven az npm-en vadászik: fejlesztők adatait lopja

Új támadáshullám érte a JavaScript-fejlesztőket a PhantomRaven ellátási láncot érintő kampánya miatt: egyszerre 88 rosszindulatú csomag jelent meg az npm-regiszterben, amelyek érzékeny adatokat lopnak el a fejlesztők gépeiről...

MA 09:19

Az orvosi MI-chatbotok akár halálos tanácsokat is adhatnak

A mesterséges intelligencián alapuló orvosi chatbotok egyre gyakrabban bukkannak fel mindennapjainkban, sokan már egészségügyi kérdésekkel is bátran fordulnak ezekhez az alkalmazásokhoz...

MA 09:10

Az Android-játékok áttörése: a Google Play Games berobban PC-re

💻 A Google egyre jobban ráfekszik az asztali játékpiacra: a Play Games PC-re szánt változata újabb lendületet vesz, rengeteg fizetős címmel bővül, és végre elérhető lesz a platformokon átívelő vásárlás lehetősége is...

MA 09:02

Az Nvidia új MI-alapmodellje forradalmasítja a mesterséges intelligenciát

A nagyvállalati felhasználásra tervezett, hosszú távú döntéshozó és problémamegoldó rendszerek egyre nagyobb adatmennyiséggel dolgoznak, különösen az MI-alapú szoftverfejlesztés és kiberbiztonság területén...

MA 08:55

A Gestala forradalmasítja az ultrahangos agyi interfészt

A kínai Gestala startup mindössze két hónappal indulása után már 7,8 milliárd forintot (21,6 millió dollár) vont be, ezzel rekordot döntött a korai fázisú agy–számítógép-interfész (BCI) szektorban...

MA 08:38

Az Asus-routerekből épül a szinte elpusztíthatatlan botnet

Külön említést érdemel, hogy kibervédelmi kutatók egy rendkívül ellenálló, 14 ezer hálózati eszközből álló botnetre bukkantak, amelynek tagjai elsősorban az Asus által gyártott routerek...

MA 08:28

Az iráni hekkerek térdre kényszerítették az egészségügyi techóriás Strykert

A Michigan állambeli központú Stryker, a világ egyik legnagyobb orvostechnológiai vállalata, súlyos kibertámadás áldozata lett...

MA 08:19

Az új Xboxra még éveket várhatunk: csúszik a Project Helix

Bár sokan már a következő Xboxra várnak, a jelenlegi Xbox Series X/S konzolok még jó ideig velünk maradnak...

MA 08:01

A Meta új MI-eszközei levadásszák a csalókat

A Meta bejelentette, hogy vadonatúj eszközökkel veszi fel a harcot a csalókkal a WhatsAppon, Facebookon és Messengeren...

MA 07:46

A Grammarly lebukott: az MI a valódi arcodat is lenyúlja?

A Grammarly egy ideje anélkül használja valódi emberek nevét és személyiségét a „Szakértői értékelés” (Expert Review) AI-funkciójához, hogy bármilyen engedélyt kérne tőlük...

MA 07:37

A MediaTek újabb botránya: percek alatt feltörhetők a telefonok

Nehéz elhinni, de néhány kattintással, mindössze 45 másodperc alatt sikerült egy kutatócsoportnak hozzáférnie egy Nothing CMF Phone 1 védett adataihoz...

MA 07:28

Az öregedő bélbaktériumok rombolják a memóriát – egerekben bizonyított

Egy lényeges szempont, hogy az agy öregedése nem mindenkire hat ugyanúgy: egyesek idősen is kiválóan tartják a memóriájukat, míg mások gyorsabban hanyatlanak...

MA 07:19

Az új Grammarly-botrány miatt forrnak az indulatok az írók között

A Grammarly nemrég kiadott egy új funkciót, amely generatív MI segítségével adott visszajelzést a felhasználók szövegeire, és azokat ismert írók vagy tudósok nevéhez kötötte...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Bank – A Dice Game (iPhone/iPad)A Bank lendületes, fordulatos kockajáték, amelyben stratégia, merészség és szerencse összefonódik...

MA 07:11

Az elpusztíthatatlan baktérium, amely az űrben is túlél

Erre utal többek között, hogy egy különleges baktériumfaj, a Deinococcus radiodurans, elképesztő strapabíróságot mutatott egy újszerű, laborban végzett kísérlet során...

MA 07:02

Az FCC elnöke kiosztotta az Amazont a SpaceX miatt

Az űriparban megszokott, hogy a nagyvállalatok folyamatosan vitatkoznak a műholdrendszerek miatt...

MA 06:55

A Bitcoin leveri az aranyat és a részvényeket is

💸 A legnagyobb kriptovaluta árfolyama stabilan 25,5 millió forint (70 000 dollár) körül tartózkodik, miközben az amerikai részvénypiacok és az arany csak szerény mértékben emelkednek...

MA 06:46

Az orosz forradalom aranya: félmilliós kincs rejtőzik a pincében

Egy 100 éves aranykincsre bukkantak egy történelmi orosz ház alapjainak feltárásakor, Torzhok városában, Szentpétervártól 420 kilométerre délkeletre...

MA 06:37

A jövő Tokióban startol: a Nuro önvezető autókat tesztel

🚗 Az amerikai Nuro vállalat önvezető autótechnológiáját már Tokió zsúfolt utcáin is tesztelik...

MA 06:30

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2

🚀 A modern vállalatok már nem engedhetik meg maguknak a széttagolt adatkezelést: szövegek, hangfelvételek, képek, videók és dokumentumok együttese folyton szigetekre szakítja az információkat...

MA 06:20

Az Apple-nél készül a Ködszerzet-film, ahogy Sanderson megálmodta

🎥 Brandon Sanderson nagy fába vágja a fejszéjét: az Apple-lel kötött megállapodásnak köszönhetően végre megvalósulhat régóta dédelgetett terve, hogy filmre viszi híres Cosmere-univerzumát...