2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:45

A kutatók kétlépcsős öregedési folyamatot fedeztek fel: rákot és ízületi gyulladást okozhat

A University College London és a Queen Mary University of London kutatói merőben új nézőpontot kínálnak az öregedés és a krónikus betegségek kapcsolatának megértéséhez...

MA 09:37

Az első összetett állatok tízmillió évvel régebbiek, mint hittük, új fosszíliák szerint

🐙 Északnyugat-Kanadában kövületek egész sorát fedezték fel, amelyek teljesen új képet adnak az élet fejlődésének korai szakaszairól...

MA 09:28

A Holttest-fok titka: skorbut sújtotta bálnavadászok maradványai Svalbardon

A Norvégia és az Északi-sark között fekvő Svalbardon, a Likneset nevű temetőben a 17...

MA 09:19

Az igazi varázs belül: kétféle Anker füles kijelzős tokkal

💬 Anker két vadonatúj fülhallgató-párral állt elő: a Soundcore Liberty 5 Pro és a Liberty 5 Pro Max modellekkel...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/22

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Planetary Hours + Widget (iPhone/iPad)A Planetary Hours alkalmazás lehetővé teszi, hogy mindennapi tevékenységeinket a kozmikus ciklusokhoz igazítsuk...

MA 09:10

Az amerikaiak nem ismerik fel a deepfake-eket – nemcsak fogyasztói baj, üzleti válság

💁 Az interneten terjedő hamisított tartalmak már nem csupán a hétköznapi emberek tájékozódását nehezítik meg, hanem komoly üzleti kockázatot is jelentenek...

MA 09:01

A Bitcoin 77,7 ezernél; az elemzők a 75 ezres támaszt lesik

💰 A Bitcoin árfolyama a 77 700 dolláros (kb. 28,2 millió forint) szinten stabilizálódott egy gyors lejtmenet után, amely rövid időre 76 685 dollárig (kb...

MA 08:55

Az új tengeri T. rex: koponyazúzó harapású texasi rém

Több évtizedes tévedésre derült fény, amikor tudósok rájöttek, egy Texasban előkerült óriás tengeri ragadozó nem az volt, aminek eddig hitték...

MA 08:46

Az elveszett bitcoin-milliárdok megúszhatják a kvantumtámadásokat?

A digitális vagyonok biztonsága új fordulatot vesz, miután előtérbe került egy új védelmi megoldás, amely képes lehet megóvni a legnagyobb veszélyben lévő bitcoinokat – köztük Satoshi Nakamoto legendás, 1,1 millió darabos készletét is...

MA 08:37

A 0,12%-os trükk, amitől az MI tényleg emlékezik

💡 Amikor a mesterségesintelligencia-ügynökök egy korábbi hibakeresést elfelejtenek, vagy egy adatelemző rendszer újra ugyanazzal a kontextussal dolgozik, mindez lelassítja a működést, növeli a költségeket, és törékennyé teszi a folyamatokat...

MA 08:28

A „zombi” sejtek nem mindig rosszak – forradalom az öregedésgátlásban

A tudományos világ egyre intenzívebben kutatja az öregedés folyamatát, és most új fényt vetnek az úgynevezett „zombi sejtek” szerepére...

MA 08:19

A James Webb-űrtávcső ritka óriásbolygót talált, meglepően földszerű hőmérséklettel

Egy eddig példátlanul részletes kutatással vizsgálták meg az univerzum egyik legritkább óriásbolygóját – amelynek hőmérséklete meglepően közel áll a Földön megszokotthoz...

MA 07:47

Az MSI Roamii BE Pro: megfizethető, villámgyors Wi‑Fi 7 mesh rendszer

🖥 Az MSI Roamii BE Pro már első pillantásra kitűnik a mezőnyből: a fehér, prizmaszerű dizájn és az alsó RGB-világítás elegáns, modern megjelenést ad az eszköznek...

MA 07:37

Az MFA beenged, de utána bármi megtörténhet

A legtöbb cég biztonsági rendszere megnyugtatóan zöld: minden belépési ellenőrzés rendben, a multifaktoros azonosítás (MFA) hibátlanul működik, és minden felhasználó szabályosan lépett be...

MA 07:18

A Radiohead szólt, amikor Harry Styles elvesztette a szüzességét

Arra a kérdésre, hogy milyen zenét hallgatnak az emberek életük jelentős pillanataiban, Harry Styles most elárulta, hogy első szexuális élménye során a Radiohead szólt a háttérben...

MA 07:11

A rádiócsillagászok biztosak benne: az idegen kapcsolat csak idő kérdése

Öt évtizeddel ezelőtt Frank Drake, a híres csillagász és rádiócsillagász, merész lépést tett...

MA 07:01

A Destiny 3 egyelőre parkolópályán, leépítések a Bungie-nál – Bloomberg szerint

Bár sokan remélték, hogy a Destiny 2 lezárása után rögtön elkezdődik a következő epizód fejlesztése, erre most biztosan hosszú ideig nem kerül sor...

MA 06:55

A 800 éves ölelkező csontvázak: genetikailag igazolt, Lengyelország egyetlen középkori nő–nő párossírja

🕊 Nyolcszáz évvel ezelőtt két embert temettek el szorosan egymás mellett egy lengyelországi templom falánál...

MA 06:37

Az Ethereum identitásválsága mélyül: agyelszívás frusztrálja a közösséget

😕 Az Ethereum körül egyre nagyobb a bizonytalanság, mióta kulcsfontosságú szereplők távoztak az Ethereum Alapítványból...

MA 06:28

Az atomok elárulták: a negatív idő tényleg létezik

🔮 Fény és némi kvantumvarázslat: tudósok nem mindennapi kísérlettel igazolták, hogy a fény valóban képes „negatív időt” tölteni egy atomfelhőben...

MA 06:18

A milliárdos Mark Cuban kiábrándulva eladta bitcoinjainak többségét

💸 Milliárdos befektetőként Mark Cuban eddig a Bitcoin egyik nagy híve volt, de most jelentős fordulatot vett: a legtöbb Bitcoint eladta, mert csalódott a kriptovaluta válság idején menekülőeszközként betöltött szerepében...

MA 06:05

Történelmi események a mai napon (Május 22.)

Viharos nap a történelemben: a valaha mért legerősebb földrengés Chilében, modern terrortámadások Európában, és mérföldkövek a technika és jog történetében...

MA 06:01

A fényt foglyul ejtő egyszarvú hullámok a tudomány határain túl

Kutatók évtizedek óta küszködnek azzal, hogy a fényalapú eszközöket olyan kicsire zsugorítsák, mint az elektronikus áramköröket...

csütörtök 21:56

Egy hétköznapi asztmagyógyszer lehet a makacs, agresszív rákok új ellensége

💉 Régi ismerős kerülhet új szerepbe a daganatos kezelések világában: egy közismert asztmagyógyszer, a montelukaszt lehet a kulcs a nehezen kezelhető rákok, például az agresszív, hármas negatív emlődaganat leküzdésében...

csütörtök 21:45

Az Assassin’s Creed IV: Black Flag példamutató felújítást kapott

Fontos kérdés, hogy mennyit változhat egy legendás játék, miközben hű marad az emlékeinkhez...

csütörtök 21:34

MoonPay új banki platformmal tör be a tokenizált eszközök és DeFi piacára

💰 A MoonPay eddig főként kriptopénzes fizetésekkel foglalkozott, de most nagyot lép előre: elindította a MoonPay Trade nevű platformot, amely lehetővé teszi, hogy a bankok, fintech cégek és nagyvállalatok egyetlen integráción keresztül férjenek hozzá tokenizált eszközökhöz, decentralizált pénzügyi (DeFi) protokollokhoz és stabilcoin-likviditáshoz, több mint 200 blokklánc-hálózaton...

csütörtök 21:25

Az MI-kódolás őrülete tönkreteszi az éles rendszereket – jön a megoldás

A fejlesztői világ óriási átalakuláson megy keresztül, mióta az MI-eszközök képesek emberi sebességgel kódot írni...

csütörtök 21:11

Az Ozempic-szerű fogyókúrás szerek csökkentik a szívinfarktus és a stroke kockázatát

A legújabb kutatás jelentős áttörést hozott az elhízás és a szív- és érrendszeri betegségek elleni küzdelemben...

csütörtök 21:01

Az MI önkannibalizálása megfékezhető – a tudósok megoldást találtak

A mesterséges intelligencia fejlődése megállíthatatlan, de egyre nagyobb aggodalom övezi, hogy a nagy nyelvi modellek hamarosan kifogynak a hiteles, ember által készült adatokból...