2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:37

A Tejút visszatér: így készíts lélegzetelállító nyári fotókat

Ilyen eset például, amikor a nyári napforduló elhozza a késő esti égbolt varázsát: júniusban a Tejút legfényesebb, legszebb részét láthatjuk az északi féltekéről...

MA 09:27

Az LG a blokkláncra viszi a reklámokat – az Arbitrum segít

Ilyen eset például, amikor egy világcég a hagyományos reklámozás helyett teljesen új megközelítést választ...

MA 09:19

A SpaceX minden idők legnagyobb tőzsdei kibocsátásával rekordot döntött

🚀 Elon Musk űripari vállalata, a SpaceX történelmi léptékű tőzsdei bevezetést hajtott végre: részvényeit 135 dolláros (kb...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     CrestWall – 4K Wallpapers (iPhone/iPad)A CrestWall egy gondosan válogatott, 4K felbontású háttérképeket kínáló alkalmazás, amelyet azoknak terveztek, akik fontosnak tartják iPhone-juk megjelenését...

MA 09:10

A britek fele egy csapásra tüntetné el az MI-t – főleg a fiatalok

🚀 Majdnem minden második brit felnőtt szívesen eltüntetné a generatív MI-t, ha tehetné...

MA 09:01

A TWID-ek búcsúznak: vége egy korszaknak a Destiny 2-ben

A Destiny 2-rajongók számára most egy korszak zárul le. A játék nemrég megkapta A Diadal Emlékműve (Monument of Triumph) frissítését, amely nagyjából lezárja a Destiny 2 hivatalos fejlesztéseit...

MA 08:55

Az akkumulátormentes eszköz a napfényt üzemanyaggá alakítja

Napfényből, vízből és szén-dioxidból üzemanyagot előállítani hosszú ideje a tudósok egyik legnagyobb álma...

MA 08:46

Az erőnléti edzés arany középútja a hosszabb élethez

💪 Érdemes megérteni, hogy napjainkban sokan keresik a hosszú élet kulcsát, de csak kevesen gondolnak arra, hogy a súlyzók vagy a saját testsúlyos edzés valódi aranybányát rejtenek...

MA 08:37

A Microsoft nyílt forrású SkillOptja súlyokhoz nyúlás nélkül turbózza az MI-ügynököket

🧠 A modern MI-ügynökök számtalan vállalati területen dolgoznak: összetett munkafolyamatokat hangolnak össze, segítenek adatokat elemezni és a mindennapi folyamatokat automatizálni...

MA 08:28

Az iOS 27 21 újdonsága, amire nem jutott idő a 2026-os WWDC-n

📶 Az iOS 27 nemcsak a megújult Siri MI-jétől lesz izgalmas, hanem olyan rejtett vagy kevésbé említett frissítésektől is, amelyek igazi örömet szerezhetnek az iPhone-felhasználóknak...

MA 08:19

Az MI-tesztek mit nem árulnak el a valós teljesítményről?

🤔 Ilyen eset például, amikor cégek hosszú hónapokat töltenek számítási kapacitás kiépítésével, GPU-k beszerzésével, felhőkörnyezet kialakításával, mindenhol a nyers teljesítmény mérésére koncentrálva...

MA 08:01

A kontextustömörítés végre élesben működik: 16x kevesebb input, veszteség nélkül

🚀 A modern nyelvi modellek számára egyre komolyabb kihívást jelent a kontextusablak mérete: ahogy egy MI-rendszer hosszabb ideig dolgozik, folyamatosan gyűlik a szöveg – például visszakeresett dokumentumok, érvelési láncok, beszélgetési előzmények formájában...

MA 07:45

A rizs rejtett ereje: okos anyaggá alakították a kutatók

Külön említést érdemel, hogy a rizs, amelyet szinte mindenki csak alapvető élelmiszerként ismer, valójában egészen szokatlan módon viselkedik nyomás hatására...

MA 07:37

A biztonsági vezetők tartanak az MI-től – még kézzel nézik a kódot

🔎 A mesterséges intelligencia (MI)-alapú kódolási segédeszközök valósággal letarolják a fejlesztőcsapatokat. A szoftverek hónapról hónapra gyorsabban készülnek, mint ahogy az ellenőrzésük képes lenne követni...

MA 07:28

A C-vitamin megóvhatja az öregedő agyat? Új bizonyíték

A C-vitaminról a legtöbbeknek a megfázás elleni védekezés jut eszébe, pedig egy most megjelent, nagyszabású japán kutatás szerint sokkal nagyobb szerepet játszhat idősödő agyunk egészségének megőrzésében, mint gondolnánk...

MA 07:10

A Föld óriási földalatti gombahálózata a Tejútrendszer tizedét is lefedné, térkép szerint

A Föld legrejtettebb, de egyik legnagyobb élő birodalma a talaj alatt húzódik — a gombafonalak elképesztő szövedéke...

MA 07:01

Az Artemis III legénysége az egyik legösszetettebb űrküldetésre készül

Az Artemis III küldetése mérföldkő lesz az emberes űrrepülés történetében: a NASA hivatalosan is bemutatta azt a négy űrhajóst, akik 2027-ben indulnak útnak, és egy tartalék asztronautát is kijelöltek...

MA 06:55

A halálos galandféreg elérte az USA északnyugati partvidékét

Észak-Amerika vadonja újabb veszélyforrással szembesül: egy olyan parazita jelent meg a Csendes-óceán északnyugati partvidékének rókaféléiben, amely halálos, daganatszerű cisztákat okozhat emberekben és háziállatokban...

MA 06:46

Az újabb kriptokrach után – mi jön most?

Májusban jelentős forráskivonásokat szenvedtek el a globális kriptós ETF-ek, ez pedig a korábbi növekedést visszafordította...

MA 06:37

Az 1100 éves montanai bölényvadászhely rejtélye végre megoldódott

🩺 Több ezer évig a bölények uralták Észak-Amerika nagy síkságait, és a helyi őslakos vadászok számára nélkülözhetetlen erőforrásnak számítottak...

MA 06:28

A Fable árnyalt hírneve arannyal simán megkerülhető

💵 Felmerül a kérdés, hogy mennyit is érnek a tettek egy világban, ahol némi arannyal bárki átírhatja a múltját...

MA 06:19

Az európai bankok túllépnek az „egy nagy stabilcoin” illúzióján

A bankvilágban hatalmas átalakulás zajlik: a korábbi versengés a mindent vivő stabilcoinért elhalványul, a hangsúly inkább a különféle tokenizált pénzügyi eszközök összehangolt rendszerére helyeződik át...

MA 06:05

Történelmi események a mai napon (Június 12.)

Válogatás a történelem mai napjának fordulópontjaiból: a magyarok augsburgi győzelme, Anne Frank naplójának első napja, Reagan ikonikus berlini beszéde és az orlandói merénylet tragédiája...

csütörtök 18:02

A SpaceX tőzsdére készül: 2 billiós értéket jósol a kriptópiac

🚀 Elon Musk cége, a SpaceX a tőzsdére lépés küszöbén áll, a részvények kereskedése holnap indul a Nasdaqon...

csütörtök 17:56

Az amerikai adatközpont-vitát MI-vel hamis, Kínához köthető fiókok befolyásolták

🔮 Az OpenAI több fiókot is letiltott, amelyek a közösségi médiában igyekeztek befolyásolni az adatközpontokkal és Trump elnök vámjaival kapcsolatos amerikai vitát...

csütörtök 17:45

A TSMC máris újabb chipáremelést lebegtet – nem fog tetszeni

📈 Külön említést érdemel, hogy a számítástechnikai alkatrészek ára az utóbbi években folyamatosan nő, és nem látszik lényegi fordulat...

csütörtök 17:02

Az Insta360 Luna Ultra 8K tényleg letaszítja a DJI Pocket 4-et?

Az Insta360 új, kétkamerás Luna Ultra kamerája forradalmi újdonságot hoz a vlogging világába, hiszen 8K felbontású videózásra képes, és már 280 ezer forint körüli áron (769,99 USD) beszerezhető...

csütörtök 16:56

Az RMT-kaszinóbotok ellepték a városokat, de jön a visszavágó

🎲 Különösen igaz ez akkor, ha valaki a World of Warcraft Classic világában jár: a játékban megjelentek azok a botok, amelyek valódi pénzért cserébe árulják a játékbeli aranyat – megszegve ezzel minden szabályt...

csütörtök 16:45

Az egyik legfurcsább ujjbegyes egér: építsd meg, ha feláldozol egyet

Annak kiderítésére, hogy mennyire lehet újragondolni egy gamer egeret, valaki most egy valóban bizarr, ujjheggyel vezérelhető „pókhálós” egeret készített 3D-nyomtatható műanyag vázzal...