2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 07:01

A világbajnokság mozgó matekja: hány kamera kell valójában?

🎥 A nyári világbajnokság közeledtével sokan találgatják, mikor robban ki vita egy-egy vitatott bírói döntés miatt...

MA 06:54

Az óriásbolygók különös forgása új nyomot ad a világok születéséhez

Az óriásbolygók és a barna törpék forgásának vizsgálata újabb titkokat tárt fel az idegen világok keletkezéséről...

MA 06:46

A háztartás tartalék-erőműve: Anker SOLIX S2000 teszt

Az elektromos áram háztartásunk egyik legalapvetőbb szükséglete lett – főleg, amikor váratlanul elmegy...

MA 06:37

Az X-Men ’97 második évada minden képzeletet felülmúl

🤩 Lényeges, hogy a kilencvenes évek rajongói imádni fogják az X-Men ’97 folytatását...

MA 06:27

A Wikipédia-adatokból kiderül, miről beszél most a világ

A Wikipédia az utolsó olyan nagy internetes oldal, amelyet önkéntesek tartanak fenn, reklámok nélkül, távol a céges érdekektől...

MA 06:19

Az Apple három rejtett jelből fedi fel MI-jövőjét

Az Apple idei fejlesztői konferenciáján bemutatta legújabb operációs rendszereit, köztük az iOS 18-at, a macOS 27-et és az iPadOS 27-et...

MA 06:05

Történelmi események a mai napon (Június 14.)

Mi történt ezen a napon a történelemben? Ma háborúk fordulópontjai, birodalmak sorsa és technológiai mérföldkövek rajzolták át a világot: Párizs német megszállása, az első nonstop transzatlanti repülés és a Stars and Stripes hivatalos elfogadása mind ezen a napon történt...

szombat 21:44

A Wall Street túllép a kriptokísérleteken, és az Ethereumra szavaz

💰 Tipikus esete annak, amikor a technológiai forradalom halkan, de mélyrehatóan formálja át a pénzügyi világot...

szombat 21:34

A Mag8 vállalatok negyede már bitcoint tart – Musknak köszönhetően

Michael Saylor, a MicroStrategy társalapítója új elnevezést adott a Wall Street legmeghatározóbb cégeinek, miután a SpaceX rekordméretű, 1,75 billió dolláros (kb...

szombat 21:12

A NASA X-59-e áttörte a hangkorlátot – közeleg a csendes szuperszonikus korszak?

🚀 A NASA és a Lockheed Martin közösen fejlesztett X-59-es repülőgépe először lépte át a hangsebesség határát, elérve a Mach 1,1-es sebességet...

szombat 21:01

A kullancs csípése húsallergiát okozhat – új veszély leselkedik?

Ebből következően érdemes megérteni, hogy a kullancsok nemcsak olyan ismert betegségekkel fertőzhetnek meg, mint a Lyme-kór, hanem okozhatnak egy ritka, de egyre gyakoribb és komoly problémát is: a húsallergiát...

szombat 20:56

A chatbotod memóriájának átvitele Geminibe és vissza – így csináld

A chatbotok világában gyakran felmerül az igény, hogy egy másik MI‑platformot próbáljunk ki, azonban sokakat visszatart, hogy elveszthetik eddigi beszélgetéseiket és beállításaikat...

szombat 20:45

A rák mesterkapcsolója: áttörés a hasnyálmirigyrák kezelésében

🚀 A tudomány világát ritkán járja át igazi lelkesedés, most azonban kivételes dolog történt...

szombat 20:34

Az AirPods lesz az iPhone-kamerád titkos távirányítója

Az iOS 26 érkezésével az AirPods új trükköket tanult: a vezeték nélküli kameravezérlés már nemcsak az Apple Watch kiváltsága...

szombat 20:01

A hamis bejelentések miatt leállították Maine adatszivárgás-bejelentő portálját

Jó példa erre, hogy Maine állam kénytelen volt leállítani a nyilvános adatszivárgás-bejelentő portálját, miután ismeretlenek hamis biztonsági incidensekről szóló közleményeket töltöttek fel a hivatalos rendszerbe...

szombat 19:56

A SpaceX tőzsdei rajtja tökéletesre sikerült – így látják a befektetők

A SpaceX pénteki tőzsdei debütálása minden várakozást felülmúlt: a részvény már reggel 150 dolláron (kb...

szombat 19:34

Miért mondhatja a kardiológusod: felejtsd el az AirPodsot?

A fejhallgatók és más okoseszközök megdöbbentően komoly kockázatot jelenthetnek mindazok számára, akiknek beültetett szíveszközük van...

szombat 19:01

A phpBB évtizedes azonosítási kiskapuját végre bezárták

🔒 Ezt jól illusztrálja, hogy egy tíz éve rejtőző, súlyos biztonsági rés most derült ki a phpBB fórummotorban: a sebezhetőség lehetővé teszi, hogy bárki bejelentkezhessen bármely felhasználó, akár rendszergazda nevében is...

szombat 18:56

A Parker újabb Nap-közeli száguldása: dőlnek a rekordok

A Parker Solar Probe újabb látványos repülést hajtott végre a Nap körül, ezzel az emberiség csillagokhoz írt történetének egyik legizgalmasabb fejezetét folytatva...

szombat 18:23

A nagy rejtély: hogyan tartja Kína alacsonyan a világpiaci olajárakat?

Külön említést érdemel, hogy az üzemanyag jelenleg jóval olcsóbb is lehetne, ha nem érvényesülnének bizonyos, Kínához köthető nemzetközi tényezők...

szombat 18:02

Az AWS mindent egy lapra tesz a gyorsabb, hatékonyabb adatközponti hálózatokért

Az Amazon egy merőben új hálózati topológiát fejlesztett ki, amely akár egyharmaddal gyorsabb, és 40 százalékkal energiahatékonyabb a hagyományos, hierarchikus hálózati rendszereknél...

szombat 17:56

Tényleg még mindig olcsók az Alphabet részvényei?

Az Alphabet (GOOGL) az egyik legnépszerűbb befektetés a világ legnagyobb alapkezelői számára, és a Chase Coleman vezette Tiger Global Managementnél is ez a legnagyobb portfólióelem...

szombat 17:45

Az agyad a kilencvenes éveidben is fejlődhet – friss kutatás

💡 Évtizedek óta tartja magát a tévhit, hogy az öregedés egyet jelent a szellemi hanyatlással, de a legfrissebb tudományos eredmények minden várakozást felülmúltak...

szombat 17:33

Az első 60 Hz-es E‑ink monitor tényleg megérkezett

Az E-ink kijelzők mindig is híresek voltak az energiatakarékosságukról és szemkímélő megjelenítésükről, de a lassú frissítési sebességük miatt eddig kevéssé voltak alkalmasak számítógép-monitorként...

szombat 17:22

A Windows XP szelleme kísért London vezető nélküli vasútján

Tipikus eset, amikor a múlt technológiája váratlanul bukkan elő a mindennapokban: a London Docklands Light Railway (DLR) egyik Limehouse állomásán XP-korszakbeli Windows jelent meg a kijelzőn...

szombat 14:34

Az óceánok lázadnak: berobban a szuper El Niño

Az elmúlt hét tudományos fejleményei közül kiemelkedtek az óceánok helyzetéről érkező riasztó jelentések...

szombat 14:23

Az USA a vissza nem térés pontján: merre tart a kanyarójárvány?

😷 Az Egyesült Államokban évtizedeken át sikerült megfékezni a kanyarót, miután komoly lépéseket tettek a vírus megállítására...

szombat 12:23

A Föld összes vize volt már valaha pisi?

Az emberi szervezet nap mint nap vizet választ ki, miközben a Föld vízkészlete folyamatosan körforgásban van...

APP
szombat 09:11

APPok, Amik Ingyenesek MA, 6/13

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy túlélő játék, amelyet George Orwell 1984 című regénye inspirált...