2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

vasárnap 21:23

Az újrahasználható rakéták csatája: beszáll a Blue Origin

A Blue Origin történelmi sikert ért el, amikor a Never Tell Me the Odds nevű rakétája a New Glenn NG-3 küldetés során sikeresen leszállt az Atlanti-óceánon lebegő Jacklyn drónhajó fedélzetére...

vasárnap 21:01

Az új opioid kevésbé okozhat függőséget, mint a morfium

💊 A kutatók azt vizsgálták, hogy a laboratóriumban most először tesztelt új, szintetikus opioid milyen eséllyel válthatja le a morfiumot és a fentanilt, amelyek erős fájdalomcsillapítók, egyben komoly függőségi problémák forrásai is...

vasárnap 20:45

Az áttörés küszöbén: forradalmi kezelés az agydaganat ellen

A Telix Pharmaceuticals most tényleg történelmet ír: új, kifejezetten agresszív agytumor, vagyis glioblasztóma kezelésére fejlesztett radiofarmakonja már a kulcsfontosságú, III...

vasárnap 20:24

A betonbiztos otthoni Wi-Fi: így zárod le a hálózatod

Megemlíthető, hogy a stabil és biztonságos otthoni internet ma már alapvető követelmény, de kevesen fordítanak elég figyelmet a hálózatuk védelmére...

vasárnap 20:12

Az őrült peremhajtás: rakétával pörgetett propeller a sugárhajtóműben

Különleges meghajtási koncepcióval állt elő egy feltaláló, amikor a hagyományos propeller–motor rendszert teljesen átértelmezte: itt nem középre került a motor, hanem egy üreges szerkezetet alkotott, amelynek belső oldalára erősítette fel a lapátokat...

vasárnap 20:02

A munkahelyi kiégés közelebb van, mint hinnéd – így védd magad

🔥 Ha már mindennap kimerülten kelsz fel, fásult vagy, esetleg azt érzed, hogy semmi értelme sincs a munkádnak, akkor könnyen lehet, hogy éppen a kiégés fenyeget...

vasárnap 19:55

A HP lekapcsolja a távoli asztali szolgáltatásait – búcsú, Anyware!

A legendás Teradici PCoIP-ból lett HP Anyware távoli asztali megoldás a végéhez közeledik...

vasárnap 19:45

A fejlesztők rémálma: a Vercelt is elérte a biztonsági blama

😱 Hiába reménykedtünk, hogy a Vercel szolgáltatásai megingathatatlan biztonságot nyújtanak, mégis betörték az ajtót...

vasárnap 19:34

A mesterséges intelligencia tényleg tudja, mit csinál? Gondoljuk újra!

Az emberi gondolkodás működését leíró szavak a hétköznapokban természetesek. Gondolkodni, érteni, tudni, emlékezni – mindennapi kifejezéseink...

vasárnap 19:25

A jövő elektronikája: mágnes nélküli vezérlés forradalmasíthatja a számítástechnikát

⚡ A számítástechnika jövője új irányt vesz: kutatók most először tették lehetővé az elektronok vezérlését mágnesek nélkül, egy olyan tulajdonság kihasználásával, amellyel eddig senki sem foglalkozott...

vasárnap 19:12

Az önvezető Tesla-taxik már Dallasban és Houstonban is hódítanak

🚗 A texasi forróságban bukkannak fel az új robotaxi-modellek, amelyek most először gördülnek ki Dallas és Houston bizonyos kerületeiben...

vasárnap 18:45

Az egyetlen békés forradalom: trónváltás a csupasz turkálók birodalmában

🐍 A föld alatti járatokban élő csupasz turkálók társadalmában az élet általában nem szelíd...

vasárnap 18:37

Az oklevél ára: belépő a hitelek világába a pályakezdőknek

Idén tavasszal egy teljesen átalakult rendszer várja azokat, akik most szereznek diplomát az Egyesült Államokban...

vasárnap 18:23

A valaha készült legnagyobb 3D-s univerzumtérkép: 47 millió galaxis egy képen

👀 Az eddigi legnagyobb 3D-s univerzumtérkép minden korábbinál részletesebben mutatja meg a világegyetem szerkezetét...

vasárnap 17:01

A microSD, ami megjárta az űrt: SanDisk Ultra és Holdra utazó nevek

Külön említést érdemel, hogy több mint 5,6 millió nevet juttatott el a Hold körüli útra a NASA Artemis II missziója, melynek során egy speciális microSD-kártyán tárolták a listát...

vasárnap 16:56

Az MI okos bevetése: vezetői túlélőkalauz

💡 Ahogy a vállalatok próbálják beépíteni a mesterséges intelligenciát a működésükbe, sokszor tanácstalanul, tapogatózva haladnak előre...

vasárnap 16:45

A tavasz csillagzáporja: most tetőzik a Lyridák

Évről évre visszatérő látványosság tavasszal a Lyridák meteorraj, amely most április 22-én, szerdán éri el a maximumát...

vasárnap 16:36

Az Asus Zenbook A16 most már tényleg igazi MI‑laptop

Az Asus Zenbook A16 az a hordozható számítógép, amely nemcsak a szokásos „MI-laptop” marketinglózungokat hozza, hanem tényleg lenyűgöző teljesítményt is produkál az új generációs, beépített neurális processzorával...

vasárnap 16:26

A Disney-parkok új korszakba lépnek: visszatér Leia, Han és Luke

Fontos kérdés, hogy milyen újdonságokat tartogatnak a következő évek a Disney parkok szerelmesei számára...

vasárnap 16:03

Az MI térnyerése: mindent letarol, vagy emberibb jövőt hoz?

Alex Imas, a munkaerőpiac és az MI kapcsolatának egyik legjelentősebb kutatója, sokáig nehezen találta meg az okot az optimizmusra...

vasárnap 15:56

Az új NAKIVO-frissítés átírja a kiberbiztonság szabályait

🔒 A folyamatosan kifinomuló zsarolóvírus-támadások és az egekbe szökő leállási költségek mellett különösen lényeges, hogy a vállalatok naprakész védelemmel tartsák kézben adatbiztonságukat...

vasárnap 15:46

A hátborzongató igazság a fej nélküli csirkékről: meddig élnek?

🐍 Érdekes felvetés, hogy egy csirke képes-e futkosni a saját fejének elvesztése után...

vasárnap 15:34

Az űrverseny újraindul: a SpaceX és a Blue Origin Hold-csatája

Az Artemis II űrhajósainak visszatérése után egyre közelebb kerül a NASA következő nagy dobása: az Artemis III küldetés...

vasárnap 15:23

Az éjszakai töltés tényleg hazavágja az akkumulátort?

A legtöbben szeretjük reggel száz százalékos töltöttséggel kézbe venni a telefonunkat, de ezzel a szokással többet ártunk, mint használunk...

vasárnap 15:01

Az Apple dönt helyetted: a lopásvédelem automatikusan bekapcsol

Április 8-án az Apple kiadott egy egészen apró, de annál jelentősebb iOS-frissítést, az iOS 26...

vasárnap 14:46

Az új 200 megapixeles kamerák végre megmutatják, mire képesek

Három évvel ezelőtt még a 200MP-es kamerák inkább hangzatos ígéretnek tűntek, mint valódi forradalomnak...

vasárnap 14:23

A NEO 200 millió dolláros kriptókincse miatt forr a belharc az alapítóknál

Erre utal többek között az, hogy a világ egyik legismertebb okosszerződéses platformján, a NEO-n két társalapító gigászi összecsapása tartja lázban a közösséget...

vasárnap 14:01

Az új drónmotoros RC-autó átírja a sebességrekordokat?

🚀 Stephen Wallis, egy részmunkaidős motorfejlesztő Rugbyből, februárban Guinness-rekordot állított fel, amikor távirányítású autója elképesztő, 377,9 km/h-s sebességet ért el...

vasárnap 13:34

Az érintésmentes érzékelés új korszaka: kapacitív szenzorok működés közben

🖱 Fontos kérdés, hogyan mérhetjük meg a tárgyak távolságát vagy közelségét szinte észrevehetetlen módon, különösen akkor, ha nagy pontosságra van szükség az érzékelésben...