2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 18:01

Az Android hívókártyái végre az okosórákra is megérkezhetnek

Az Android legújabb fejlesztéseivel már hamarosan teljes képernyős, személyre szabott hívókártyák jelenhetnek meg a Wear OS okosórákon...

MA 17:59

Az OpenAI-maffia, az MI startupvilágának új nagyhatalma

👑 Egy lényeges szempont, hogy a Szilícium-völgynek új urai vannak: a mesterséges intelligencia területén az OpenAI korábbi kollégái sorra indítják saját, gyakran milliárdokat érő vállalkozásaikat...

MA 17:39

Az új dél-koreai tőzsdei bevezetés kilőtte az AZTEC árfolyamát

📈 A dél-koreai Upbit és Bithumb tőzsdék egyidejűleg bevezették az AZTEC tokent helyi valutapárokkal, ami hirtelen árfolyam-emelkedést idézett elő a szűk likviditású piacon...

MA 17:20

Az új Galaxy Buds 4: régi árak, friss dizájn, dráma nélkül

🎧 Megint kiszivárogtak a Galaxy Buds 4 és Buds 4 Pro árai, és nincs semmi botrány: a sima Buds 4 az Egyesült Államokban 179,99 dollárért, a Pro pedig 249,99 dollárért jelenik meg – ez nagyjából 180 000 és 250 000 forintnak felel meg, szóval semmi meglepetés, ugyanannyiért lehet majd kapni őket, mint az előző generációt...

MA 16:58

A Xiaomi 17 Ultra letaszítja a trónról a Samsung Galaxy S26 Ultrát?

🚩 Úgy tűnik, hogy az év egyik legjobban várt telefonpremierje épp a barcelonai MWC 2026 előtt érkezik...

MA 16:39

Az Emírségek MI-óriása nagyot robbantana Indiában

Abu-Dzabiban székelő G42 technológiai vállalat 8 exaflops teljesítményű új szuperszámítógépet telepít Indiában az amerikai Cerebras chipgyártóval együttműködve...

MA 16:21

A bitcoin-drámák ellenére a kriptó még mindig olcsó

Például hiába emelkedett az elmúlt 24 órában a bitcoin árfolyama 2%-kal, továbbra is extrém félelem uralkodik a kriptovaluta-piacon...

MA 13:59

Az űrkapszula-botrány: a NASA elismerte a Starliner fiaskóját

🚀 A Starliner űrhajó 2024-es küldetése hivatalosan is „A típusú” katasztrófaként került besorolásra, ami azt jelenti, hogy a NASA minden eddiginél komolyabban ismerte el: a küldetés súlyos hibával zárult...

MA 13:40

Az óriásvírus, amely átírhatja az élet eredetéről alkotott képünket

Egy japán kutatócsoport egészen különleges felfedezést tett: egy új óriásvírust azonosítottak, amely akár az összetett élet keletkezésének titkait is feltárhatja...

MA 13:21

Az új Gemini 3.1 Pro: finomhangolható észjárás, ütős előnyök

💡 Elsőként debütál a Google Gemini 3.1 Pro modell, amely forradalmian új szintet hoz a vállalati MI-fejlesztések világában...

MA 12:02

Az MI az utolsó lépésen hasal el? Támadnak az aranycsövek

Ebből következően érdemes megérteni, hogy miért jelent problémát a vállalati MI-rendszerek számára az „utolsó mérföld”, vagyis a végső lépésben történő adatkezelés, és hogyan próbálja ezt feloldani egy új, „aranycső” (golden pipeline) nevű megközelítés...

MA 11:58

Az Android nagytakarítása: 1,75 millió app tiltólistán egy év alatt

🚀 2025-ben a Google elképesztő mennyiségű, több mint 1,75 millió alkalmazás közzétételét akadályozta meg a Play Áruházban, mivel azok nem feleltek meg az előírásoknak...

MA 11:39

Az Amazfit T-Rex Ultra 2: a túrázók álomokosórája, minden földi jóval

🛬 Továbbá az Amazfit bemutatta eddigi legnagyobb okosóráját, a T-Rex Ultra 2-t, amely kifejezetten szabadtéri kalandoroknak készült...

MA 11:21

Az MI-alapú ügyfélélmény árnyoldala: 700 cég már ráfázott

Az ügyfélélmény (CX) platformok ma már elképesztő mennyiségű strukturálatlan adatot dolgoznak fel...

MA 11:02

Az arany és a bitcoin szárnyal: Irán miatti félelem fűti a piacot

Erre utal többek között az, hogy a bitcoin ismét közelít a 68 000 dolláros (kb...

MA 10:55

Az óriáshold, amely kettészakadt: így születhettek a Szaturnusz gyűrűi

🌓 A Szaturnusz legnagyobb holdja, a Titán, valójában két összeolvadt égitestből keletkezhetett, méghozzá egy kozmikus ütközés következtében, mintegy 400 millió évvel ezelőtt...

MA 10:37

Az emberi test rejtett gyulladáskapcsolója: áttörés a krónikus betegségek ellen

A kutatók egy eddig rejtett biológiai folyamatot tártak fel, amely a szervezetben természetes módon leállítja a gyulladást, amikor arra már nincs szükség...

MA 10:27

Az ember és a macska: ugyanaz a rák, ugyanazok a gének?

Felmerül a kérdés, mi köti össze legszorosabban a macskákat az emberekkel...

MA 10:19

Az androidos kártevő, amely mesterséges intelligenciával tartja magát életben

A biztonsági kutatók olyan androidos kártevőt azonosítottak, amely először használ generatív MI-t a működése során...

MA 10:01

A csodagyógyszer, amitől az amerikaiak rettegnek – de miért?

A sztatinokat az orvostudomány szinte csodagyógyszerként ünnepli, hiszen 10 000 szedőből 1 000-nél ténylegesen megelőzik a súlyos szív- és érrendszeri eseményeket...

MA 09:46

Az űridőjárás rázza meg a Földet?

Napkitörések jócskán felforgathatják a Föld légkörét: nemcsak a sarki fényeket hozzák létre, hanem talán a földrengések kialakulására is hatással lehetnek...

MA 09:38

Az Nvidia 11 ezermilliárd forintot pumpálna az OpenAI-ba

💸 Az MI-piac újabb brutális pénzmozgás előtt áll: az Nvidia akár 11 ezermilliárd forintot (30 milliárd USD) fektethet az OpenAI-ba, amely a startupot már 266 ezermilliárd forintra (730 milliárd USD) értékelné...

MA 09:28

Az Apple ellen újabb per: ismét célkeresztben az iCloud

Érdemes megérteni, hogy egy nyugat-virginiai per most komoly nyomást helyez az Apple-re...

MA 09:19

A bouba–kiki-hatás: még a csibék is ráéreznek

Annak megvizsgálására, hogy a bouba–kiki-hatás, amelyben bizonyos hangokat és formákat ösztönösen párosítunk egymással, mennyire ősi lehet az élővilágban, újszülött csibékkel végzett friss kísérletek készültek...

MA 09:12

Az MI-ügynökök átveszik a kasszát – mire készüljenek a márkák?

A mesterséges intelligencia forradalmat indít a vásárlásban. Ma már egyre többen kérik meg MI-ügynököket arra, hogy találják meg, hasonlítsák össze, sőt vásárolják meg a különböző termékeket a nevükben...

MA 09:02

Az autóipari óriásnál adatlopás történt, mégis csendben marad

🚗 A ShinyHunters nevű hírhedt hackercsoport ismét nagyot lépett: most az egyik legnagyobb online autópiac, a CarGurus 1,7 millió belső vállalati rekordját lopták el...

MA 08:47

Az Nvidia az indiai MI-startupok trónjára tör

Az Nvidia elkezdte még korábbi fázisban megszólítani az indiai MI-startupokat, és friss együttműködéseket kötött annak érdekében, hogy már akkor kapcsolatba léphessen az alapítókkal, amikor a cégük még meg sem alakult...

MA 08:38

Az Ősrobbanás őslevese: tényleg így indult a világegyetem?

Érdemes megvizsgálni, mi történt a világegyetem legelső ezredmásodpercében, amikor a tudósok szerint minden anyag egyfajta forró, ősi levesben úszott...

MA 08:28

Az égből termel áramot a kínai repülő szélturbina

Kína egyedülálló légi szélturbinát tesztelt sikeresen, amely léghajóként emelkedik az égbe, hogy ott, a megbízhatóbban fújó szélből termeljen áramot...