2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 20:23

Az antianyag kamionra szállt – az év tudományos kalandja

🚗 A CERN kutatói először vitték ki az antianyagot a laboratóriumból, és ezzel egy kamionnyi, pontosan 92 antiproton szállítására alkalmas csúcstechnológiás csapdát gördítettek végig a kutatóközpont területén...

MA 20:13

Az alvilág új kedvence: az MI-fiók

Az utóbbi időben a mesterséges intelligencia (MI) eszközök gyorsan beépültek a mindennapokba, legyen szó tartalomgyártásról, szoftverfejlesztésről vagy éppen üzleti folyamatokról...

MA 20:01

Az OpenAI Sora-fiaskója miatt bukott a Disney milliárdos üzlete

A Disney váratlanul visszavonult az OpenAI-jal kötött tervezett, 1 milliárd dolláros (kb...

MA 19:56

Az elektromos motorokat tényleg ijesztően könnyű feltörni?

⚠ Az elektromos motorokat gyártó Zero Motorcycles azt hirdette, hogy járműveik feltörhetetlenek – végül kiderült, hogy óriásit tévedtek...

MA 19:45

Az Android rakétára kapcsolt: ő lett a mobilnet királya

Elképesztő tempót diktál mostanában az Android, ha mobilos böngészésről van szó...

MA 19:34

Az új Citrix-sebezhetőségek: frissítés nélkül célponttá válsz

Két súlyos sérülékenységre derült fény a NetScaler ADC és NetScaler Gateway eszközökben...

MA 19:23

Az első nagy per a közösségi média ellen: bajban a techóriások

A Los Angeles-i esküdtszék történelmi döntést hozott: a Meta és a YouTube jelentősen felelősek egy fiatalkorú közösségi média-függőségéért...

MA 18:01

Az MI pénzgyára dübörög: érkeznek az Arm titkos, izgalmas processzorai

💸 Az Arm vezérigazgatója, René Haas új irányba fordítja az eddig főleg IP-licenceléstől függő brit chipfejlesztő vállalatot...

MA 17:56

Az Android új Terminálja végre halad a korral

💻 Az Android legfrissebb Canary-verziójában teljesen megújul a Linux-terminál alkalmazás, amely eddig is a Pixel-telefonok egyik leghasznosabb, ám keveset emlegetett extrája volt...

MA 17:45

A Ring 4K-s, napelemes kapucsengőkkel hódít

🚕 A Ring új magasságokba repíti akkumulátoros videókapucsengőit, és nem kispályásan: a legújabb Battery Doorbell Pro (2...

MA 17:35

Az újabb brutális leépítési hullám söpör végig a Metánál

Érdekes, hogy néhány év alatt a Meta számára gyakorlatilag csak egy fő irány maradt: az MI...

MA 17:24

Az OpenAI elkaszálja a Sora MI‑videóalkalmazást

Az OpenAI bejelentette, hogy megszünteti a Sora nevű MI‑alapú videóalkalmazását és a hozzá tartozó fejlesztői API‑t...

MA 17:02

A mámorító nektár titka: méhek és kolibrik egész nap isznak

🍹 A virágporozók, mint a méhek és a kolibrik, nemcsak nektárral táplálkoznak, de tudtukon kívül folyamatosan kis mennyiségű alkoholt is fogyasztanak a természetben...

MA 16:57

Az amerikai dolgozók bíznak magukban, de elbuknak az adathalász-teszten

Sokan magabiztosnak érzik magukat, ha adathalász e-mailekről van szó, mégis meglepő eredményekre jutott egy friss felmérés...

MA 16:46

Az eltűnt tetoválás: a nyakára tetovált kereszt végzetes nyomot hagyott

Egy húszéves férfi különleges esete rámutat, hogy a tetoválásokhoz ma is társulhat ritka szövődmény...

MA 16:34

Az új Firefox 149 érkezik: osztott ablak, beépített VPN, még több kényelem

🛠 Megérkezett a Firefox 149-es verziója, amely látványos újdonságokat tartogat. Mostantól két weboldal nézhető egymás mellett a böngészőben, így a párhuzamos munkavégzés sosem volt még ilyen egyszerű...

MA 16:24

Az eltűntnek hitt nyúl teteme most váratlan reményt hozott

Évtizedek óta először sikerült azonosítani a Hajnan szigetén honos, kritikusan veszélyeztetett hajnani nyúl maradványait egy szokatlan helyen – de sajnos már csak egy elgázolt tetem formájában...

MA 14:01

Az Archer routerekben óriási biztonsági rések tátonganak

Az Archer NX sorozatú routereken komoly biztonsági rést találtak: a TP-Link sürgős frissítést javasol felhasználóinak, mert a hibának köszönhetően támadók mindenféle jogosultság nélkül tölthetnek fel új firmware-t, illetve teljesen átvehetik az eszköz irányítását...

MA 13:56

A Harvey jogi MI-startupja már 4000 milliárd forintot ér

🧐 Még mindig akadnak ígéretes MI-alapú cégek, amelyeknek nem kell aggódniuk az OpenAI vagy az Anthropic óriási térnyerése miatt...

MA 13:25

Az MI átveszi a Mac felett az irányítást: itt a Claude

🤖 Anthropic újabb áttörést jelentett be az MI-alapú ügynökök frontján: a Claude nevű chatbot mostantól képes egy Mac számítógép teljes irányítására...

MA 11:57

A sarkvidéki hideg drámai betörése Floridába

❄ Egy szokatlanul intenzív hidegfront felkavarta a tengerfenék üledékét Florida partjainál, amelynek eredményeként meseszép, világoskék üledékfelhő fodrozódott végig a Mexikói-öböl délnyugati térségében...

MA 11:35

Az aszály nyomán ránk szabadulhatnak a szuperbaktériumok

🦠 A Föld gyorsuló felmelegedése és az egyre gyakoribb szárazság már most kimutathatóan kedvez az antibiotikumoknak ellenálló baktériumok terjedésének...

MA 11:23

Baltimore perre megy Elon Musk cégével az AI-meztelenképek miatt

Na most kapaszkodj, mert Baltimore városa most tényleg megtolta: beperelte Elon Musk AI cégét, az xAI-t, mert a Grok nevű chatbotja durván átlépett egy határt a deepfake meztelen képekkel...

MA 11:12

Az európai bankok is a Bitpanda blokkláncához csatlakoznak

💸 Az osztrák Bitpanda új blokkláncot indít, amely lehetővé teszi, hogy bankok és fintechcégek digitális, tokenizált eszközöket bocsássanak ki és számoljanak el a szigorú uniós szabályozások, például a MiCA és a MiFID II előírásai szerint...

MA 11:01

A Huawei csúcsmobilja szó szerint a rajongóknak készült – ventilátorral!

A HUAWEI Mate 80 Pro Max Wind Edition váratlan fordulattal érkezett: a korábbi passzív hűtés helyett beépített turbóventilátort kapott...

MA 10:57

Hamarosan személyre szabható hangposta érkezik a Google Pixel készülékekre

A Google Take a Message funkciója egyre nagyobb hangsúlyt kap a Pixel készülékeken, alternatívát kínálva a hagyományos hangposták helyett...

MA 10:50

A külföldi routereket végleg száműzik az amerikai piacról

Az Egyesült Államok rádiófrekvenciás szabályozó hatósága, az FCC mostantól megtiltja az összes olyan új otthoni router forgalmazását, amelyet külföldön gyártanak...

MA 10:31

Az elfelejtett gyilkos visszatér: terjed a TBC Amerikában

Jó példa erre, ami a San Franciscó-i Archbishop Riordan High Schoolban történt tavaly ősszel...

MA 10:22

Az Android Automotive túlmutat a műszerfalon: jön a Google-szörnyagy az autókba

Oké, eddig csak a szórakoztató rendszeredet irányíthatta a Google az autódban, de most emelik a tétet...