2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 18:03

Az MI nem felejt: a Google átírja a játékszabályokat

Erős verseny indult abban, hogy az MI-rendszerek végre ne csak egy-egy feladatra, hanem hosszabb távon is képesek legyenek memóriát használni...

MA 18:01

Az Anker SOLIX E10: az otthon áramszünetbiztos erőműve

⚡ Például egy váratlan áramszünet akár csak néhány percig is tarthat, mégis komoly fejfájást okozhat otthonodban – különösen, ha a hűtőd tartalma megromlik, vagy ha online dolgozol...

MA 17:39

Az MI felturbózza a Firefoxot, de a rossz RAM még büntet

Fontos kérdés, hogy mennyire lehet még megbízhatónak tartani a modern böngészőket, amikor naponta tízezrek tapasztalják, hogy váratlanul lefagy a Firefox...

MA 17:22

Az MI-vel folytatott csevegés már leleplezi a pszichózis kockázatát

A mesterséges intelligencia fejlődése robbanásszerűen átalakította a mindennapokat: emberek milliói fordulnak chatbotokhoz tanácsért, érzelmi támaszért vagy egyszerű beszélgetésért...

MA 17:03

Az okos projektor, ami letaszítja a trónról a tévét

Képzeld el, hogy van egy kisméretű, könnyen hordozható projektorod, amin azonnal elindulnak a kedvenc műsoraid, filmjeid, és mindent megkap, amit a Roku kínál...

MA 16:58

Az áttörés a csontgyógyításban: porcszövet ad lendületet az újranövésnek

Csontsérülések vagy csontvesztés miatt évente több millió ember szenved tartós egészségkárosodást világszerte...

MA 16:40

Az alvás lehet a fülzúgás enyhítésének titkos kulcsa?

💤 A visszatérő fülzúgás, vagyis tinnitus sokak mindennapjait keseríti meg: a tartós csengés, sistergés, zümmögés vagy kattogás éjjel-nappal jelen lehet, és csak az érintett hallja...

MA 14:01

Az új hibrid Corvette ZR1X fillérekért alázza a szupersportkocsikat

🚀 A Corvette ZR1X hibriddel a Chevy feltör, mint a talajvíz, és csúnyán rácáfol arra, amit hinni szerettünk volna az elektromos sportautók temetése kapcsán: hogy a jövő a tisztán elektromosé...

MA 13:58

Az xAI elbukott: Kalifornia nyilvánosságra hozatja az MI-adatforrásokat

Na tessék: az xAI vad próbálkozással akarta megállítani azt az új kaliforniai törvényt, amely mostantól kötelezi az MI-fejlesztőket, hogy nyilvánosan írják le, milyen adatokat tömnek a modelleikbe...

MA 13:40

A higany folyékony, mert meghajlítja a fizika törvényeit

Egy lényeges szempont, hogy a higany, bár fém, szobahőmérsékleten mégis folyékony...

MA 13:20

Az emberiség turbófokra kapcsolt: sosem fűtöttük így a Földet

Szóval, képzeld el, tényleg turbófokozatra kapcsoltunk a bolygó klímájának fűtésében. Egyszerűen pörög a globális melegedés: a kutatók most kimutatták, hogy nagyjából 0,35 Celsius-fokkal melegszik a Föld évtizedenként – ráadásul az elmúlt 10 évben!..

MA 12:01

A Rivian raktárában halálos baleset, vizsgálat indult

Egy 61 éves férfi, Kevin Lancaster vesztette életét a Rivian illinois-i raktárában, miután beszorult egy kamion és a rakodórámpa közé...

MA 11:57

Az aszteroida mégsem csapódik a Holdba – fellélegezhetünk!

Itt a legfrissebb űrhír, amitől ki lehet ugrani a bőrödből: a 2024 YR4 nevű aszteroida tavaly olyan pánikot keltett, mint amikor a szomszéd kihívja rád a rendőröket, mert túl hangosan bulizol...

MA 11:20

Újabb kémprogram vadászik az izraeli mobilokra

🕵 Felmerül a kérdés, hogy mennyire lehet megbízni a vészhelyzeti értesítésekben, amikor egyre kifinomultabb kémprogramok fenyegetik az okostelefonokat...

MA 11:01

Az első aszteroidaeltérítés: a NASA átírta a történelmet

🚀 2022 szeptemberében a NASA egy különleges kísérletbe fogott: egy 570 kilogrammos, 22 530 km/órával haladó űrszondát frontálisan nekivezette a Dimorphos nevű kisbolygónak...

MA 10:55

Az MI-ügynökök élesbe mennek – nem csak jobb modellekkel

🤖 Ahogy a modern MI-modellek egyre okosabbak és sokoldalúbbak lesznek, nem elég csak a mesterséges intelligencia fejlődésére építeni – a köré épített eszközöket, úgynevezett harnesseket is fejleszteni kell...

MA 10:50

Az indiai MI-forradalom új fejezete: ingyenes a Sarvam 30B és 105B

Az indiai fejlesztésű Sarvam 30B és Sarvam 105B nagy nyelvi modellek nyílt forráskódúvá váltak, ami alaposan felborította az eddigi elképzeléseket arról, mire képesek a helyi fejlesztésű MI-rendszerek...

MA 10:38

Az adatvédelem jövője: forradalmi újítások a Cloudflare One-tól

🔒 Az üzleti világ digitális átalakulása egyre gyorsabb tempót diktál. A munka már nem egyetlen hálózaton vagy irodán belül zajlik, hanem bármilyen végpontról – legyen az laptop, mobil vagy böngésző – és mindenféle szoftveren, például SaaS-alkalmazásokban...

MA 10:28

Az Apple száműzte a kínai ByteDance appjait az USA-ból

Az utóbbi hónapokban több amerikai iPhone-tulajdonos vette észre, hogy a korábban gond nélkül letölthető kínai alkalmazásokat most már nem tudják elérni akkor sem, ha kínai App Store-fiókkal próbálkoznak...

MA 10:22

Az iPhone-ok rémálma: a Coruna exploitkészlet titkos útja

2025-ben egy, az Apple iPhone-okat támadó, kiemelkedően veszélyes exploitkészlet felbukkanása keltett riadalmat a biztonsági szakértők között...

MA 10:01

Az Atlanti-óceán sötét titkai: vegyi fegyverek a halászhálóban

Felmerül a kérdés, hogy milyen rejtett fenyegetések leselkednek azokra, akik az Atlanti-óceánból próbálnak megélhetést biztosítani maguknak...

MA 09:55

Az egészségügyi óriás adatbotránya: 3,4 millió páciens érintett

💉 A TriZetto Provider Solutions, az egészségügyi informatikai szektor egyik nagy szereplője, jelentős adatszivárgás áldozata lett, amelynek során több mint 3,4 millió páciens személyes adata került veszélybe...

MA 09:47

Az új Pokémon: Pokopia – életvidám közösségi kaland vár rád

A Pokopia elhozza azt az idilli, meleg hangulatot, amelyet eddig csak kevesen tudtak ilyen jól ötvözni a klasszikus Pokémon-univerzummal...

MA 09:37

Az eltűnt erszényesek visszatértek: két fajt élve találtak Új-Guineában

🐱 Ilyen eset például, amikor egy fajról azt hisszük, hogy évezredekkel ezelőtt kihalt, de aztán mégis felbukkan egy élettel teli erdő mélyén...

MA 09:28

Az amerikaiak felélik a nyugdíj-megtakarításaikat: itt az új vészkassza

💰 Egyre többen kényszerülnek életük elsődleges pénzügyi tartalékához, a 401(k)-hez (amerikai nyugdíjmegtakarítási számla) nyúlni, amikor sürget a baj...

MA 09:19

A Bitcoin megint beszakadt: elolvadt az emelkedés haszna

💸 A kriptopiac pénteki reménykeltő megugrása után szombatra újra beköszöntött a hullámvasút: a bitcoin árfolyama 3,4%-kal esett vissza, így ismét 68 000 dollár, azaz körülbelül 25,3 millió forint alá süllyedt...

MA 09:10

Az új Microsoft 365-mentés végre fájlokat is visszaállít

Az eddig időigényes Microsoft 365 Backup hamarosan olyan frissítést kap, amely lehetővé teszi az adminisztrátorok számára, hogy ne csak teljes SharePoint- vagy OneDrive-helyeket, hanem egyes fájlokat és mappákat is visszaállítsanak...

MA 09:04

Az új GoPro Lit Hero: apró, de óriási a felhajtás

📺 Első pillantásra úgy tűnt, hogy a GoPro Lit Hero lehet az eddigi legizgalmasabb akciókamera a márka kínálatában: kicsi, könnyű, szinte bárhová magaddal viheted, legyen szó nyaralásról vagy olyan helyről, ahol egy nagyobb fényképezőgéppel feltűnősködnél...

MA 08:57

Az extrém koponyaformák: díszítés, törzsi összetartás vagy ősi hagyomány?

💀 Érdekes felvetés, hogy szinte minden földrészen, kivéve az Antarktiszt, találtak már idegennek tűnő, módosított koponyákat...