2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 18:02

Az új Burger King fejhallgatók már a mosolyodat is lesik

A Burger King most mesterséges intelligenciával működő headseteket tesztel, amelyek nemcsak recepteket tudnak felmondani, hanem a dolgozók udvariasságát is képesek nyomon követni...

MA 17:40

A dinoszauruszok nagy titka: nem hasonlítottak a mai emlősökre

Képzeld el, hogy egy fiatal Brachiosaurus, akkora, mint egy golden retriever, növényeket keresgél testvéreivel, miközben ragadozók elől bujkál...

MA 17:02

A nagy MI-csavar: nem a Z-generáció pörög rá leginkább

Ki gondolta volna, de nem a legfiatalabbak pörgetik legjobban a mesterséges intelligenciát...

MA 17:00

Az Apple végre lép: jön az olcsó MacBook?

Fontos kérdés, hogy idén vajon végre látunk-e valódi újdonságot az Apple-től, vagy marad a visszafogott frissítgetés, amit az utóbbi időben megszokhattunk...

MA 14:02

A Samsung Galaxy S26 világszerte műholdas kapcsolattal debütál

📶 A Samsung Galaxy S26 készülékek hamarosan lehetővé teszik a műholdas kommunikációt, így a felhasználók világszerte hozzáférhetnek ehhez a fejlett funkcióhoz...

MA 13:59

A nagy X-rejtély: miért vonzódtak a neandervölgyiek a modern nőkhöz?

Megvizsgálandó, hogy miért található hihetetlenül kevés neandervölgyi eredetű DNS az emberi X-kromoszómában, míg más génszakaszokon jóval több maradt fenn...

MA 13:40

Az igazság a nyikorgó sportcipőkről: meglepő okok a háttérben

👟 A kosárlabdapályák jellegzetes nyikorgása végre magyarázatot nyert: a hangot nem egyszerűen a gumi és a parketta közti súrlódás okozza, hanem a talp és a padló között kialakuló, szuperszonikus sebességgel mozgó kis súrlódási zónák...

MA 13:21

A kozmikus káosz térképe: ritka égitestek a Tejútrendszer szívében

A Tejútrendszerünk központját sűrű por- és gázfelhők, vadul mozgó csillagok és egy óriási fekete lyuk uralják...

MA 12:01

A Burger Kingben fejhallgatón át nevel az AI-főnök

🍔 Már nemcsak a grillen történik a varázslat: a Burger King bevetette legújabb trükkjét, egy mesterségesintelligencia-alapú chatrobotot, amely beépült a dolgozók fejhallgatóiba...

MA 11:59

Az oltás várandósság alatt drámaian csökkenti a preeklampszia esélyét

Több mint 6500 terhes nő adatait elemezve fény derült arra, hogy a COVID–19 elleni védőoltás a várandósság idején nemcsak a vírus elleni védelmet nyújtja, hanem jelentősen mérsékli a preeklampszia kialakulásának esélyét is...

MA 11:39

Az Apex One kritikus sebeket foltoz – ne maradjon rés a pajzson!

A japán Trend Micro két súlyos sebezhetőséget is javított az Apex One biztonsági rendszerében, amelyek lehetővé tették a hackerek számára, hogy távolról kártékony kódot futtassanak sérülékeny Windows gépeken...

MA 11:21

Az óriási adatszivárgás 25 milliót érint – így védd magad

Egy súlyos kibertámadás során a Conduent üzleti szolgáltató rendszereihez jogosulatlanul hozzáfértek, és akár 25 millió amerikai személyes adata kerülhetett rossz kezekbe – közülük 15 millióan texasiak...

MA 11:03

Az MI-asszisztensek új ura: itt a Perplexity Computer

🤖 A Perplexity bemutatta új fejlesztését, a Computert, amely képes önállóan megszervezni és levezényelni összetett feladatokat, miközben több MI-modelleket használ egyszerre...

MA 10:55

A magányos foton titkos dimenziói: forradalom a kvantumfényben

💡 Fontos kérdés, hogy képesek vagyunk-e a fény elemi részecskéiben, a fotonokban eddig láthatatlan dimenziókat felfedezni és kihasználni...

MA 10:47

Az új fogyókúrás tabletta mindent visz

Az orforglipron, az Eli Lilly új fejlesztésű, szájon át szedhető, GLP-1-receptoron ható készítménye látványos sikereket ért el a legújabb klinikai vizsgálatban...

MA 10:38

Az új Nano Banana 2: a Google nagyot kockáztat

😁 Ez a jelenség jól illusztrálható azzal, hogy a Google lendületét egy évnyi fejlesztés sem tudta megtörni: az MI-modellek sorozatos frissítéseivel sikerült az élmezőnybe ugrania, sőt, több területen még a legnagyobb versenytársakat is maga mögé utasította...

MA 10:29

Az éjszaka, amikor 800 ezer égi titok feltárult

A chilei Cerro Pachón-hegy tetején működő Vera C. Rubin Obszervatórium szenzációs felfedezésekkel indította tudományos küldetését: egyetlen éj leforgása alatt 800 000 égi objektumról adott ki riasztást...

MA 10:19

Az amerikai dolgozók lemaradnak: Kína vezet az MI-képzésben?

🔧 Az amerikai vállalatok versenyt futnak az idővel, hogy alkalmazottaik felkészüljenek az MI-alapú munka világára...

MA 10:02

Az okos pénz 60 ezernél is fél: Bitcoinra védelmet vesznek a nagyok

💸 A jelentős bitcoin ETF-birtokosok és vállalati kincstárak egyre komolyabban védekeznek egy 60...

MA 09:46

A látszólag ártatlan Google API-kulcsok veszélybe sodorják a Gemini MI-adatokat

Éveken át a fejlesztők gondtalanul használták a Google Cloud API-kulcsokat nyilvános weboldalak JavaScript-kódjaiban, például térképekhez, YouTube-beágyazásokhoz vagy Firebase-szolgáltatásokhoz...

MA 09:20

Az MI-vel az AT&T 90%-kal vágja le költségeit

Kevés vállalat kezel akkora adatmennyiséget napi szinten, mint az AT&T, ahol a tokenhasználat eléri a napi 8 milliárdot...

MA 09:12

A Mars óriáspókhálóinak rejtélyes tojásai értetlenül hagyják a tudósokat

A Mars felszínén most új, rejtélyes képződmények kerültek előtérbe. A Curiosity marsjáró friss felvételein óriási, pókhálószerű hálók, úgynevezett boxwork-képződmények láthatók, melyeket apró, tojásra emlékeztető gömbök borítanak...

MA 09:01

Az AI, ami dolgozik helyetted: tényleg tehermentesít a Copilot Tasks?

Végre itt van egy mesterséges intelligencia, ami tényleg dolgozik helyetted, nem pedig csak figyel, vagy pofátlanul megszakít minden húsz másodpercben...

MA 08:55

Az iPhone és az iPad mostantól NATO-titkokat is kezel

🔒 Az Apple bejelentette, hogy az iPhone és az iPad az első és eddig egyetlen fogyasztói eszközök, amelyek megfelelnek a NATO tagállamainak legszigorúbb információbiztonsági követelményeinek...

MA 08:46

Az új családtag, aki néha felborul: beköltözik a Neo robot

🤖 Neo, a 168 cm magas humanoid robot már előrendelhető, és kb...

MA 08:28

Az a pillanat, amikor a Google Fordító végre az idiómákat is érti

Létezik az a helyzet, amikor próbálsz valami menőt vagy vicceset mondani angolul, aztán szembejön veled egy kedves, de értetlen tekintet, mert az a bizonyos „break a leg” vagy az elhíresült „bite the bullet” ott helyben totál félremegy...

MA 08:19

Az új ritmusjáték, amitől újra tombolhat a Guitar Hero-láz

🎸 A volt Guitar Hero-fejlesztők által újjáélesztett RedOctane Games idén egy vadiúj zenei játékkal készül meghódítani a piacot...

MA 08:03

Az Anthropic új blogja: MI nyugdíjba megy, vagy csak marketing?

🧐 Február végén az Anthropic váratlan lépésre szánta el magát: blogot indított régóta szolgáló MI-modelljének, a Claude Opus 3-nak...

MA 07:56

Miközben nyereséges, Jack Dorsey cége 4 ezret rúg ki az MI miatt

📈 A Block, amely alá tartozik a Square fizetési rendszer, a Cash App, a Tidal, valamint egy nyílt forráskódú MI-platform, hirtelen a világgazdasági diskurzus központjába került...