2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

csütörtök 21:56

Az új vérteszt forradalmasíthatja az Alzheimer korai felismerését

Alzheimer-kórban világszerte milliók szenvednek, de megtévesztően rejtőzködő korai stádiumai miatt a diagnózis jellemzően csak későn születik meg...

csütörtök 21:46

Az étteremláncoknál tarol a kicsi: berobban a mini adagok kora

🍔 Néhány éve még mindenhol a bőséges porciók jelentették a jó vendéglátást...

csütörtök 21:35

Az első holdi csicseriborsóval indul az űrkertészet kora?

Lényeges szempont, hogy a jövő űrhajósai számára az egyik legnagyobb kihívás az élelem előállítása lehet a Holdon...

csütörtök 21:02

A loot box ártalmatlan móka vagy tiltott szerencsejáték – a Valve nagy dobása

A Steamet üzemeltető Valve komoly támadás alá került New York állam részéről, mert a hatóságok illegális szerencsejátékkal vádolják a loot boxok véletlenszerűen generált tartalma miatt...

csütörtök 20:56

A munka jövőjét az 50 feletti nők írják az MI korszakában

Az elmúlt években a cégek szinte kizárólag a fiatal, technikailag képzett munkaerőt hajszolták, miközben folyamatosan háttérbe szorították az egyik legértékesebb csoportot: az 50 feletti nőket...

csütörtök 20:46

A Golf-áramlat rejtett jele az Atlanti-áramlatok összeomlását jelzi

🌊 A Golf-áramlatban megbújó korai figyelmeztető jel segíthet előre jelezni a hatalmas atlanti-óceáni áramlatrendszer összeomlását, ami alapjaiban formálhatja át Európa és az egész északi félteke éghajlatát...

csütörtök 20:35

Az ősi homok titka: így lesznek időgépek a kozmikus sugarak

A Föld ősi tájainak rejtett története új módszerrel tárul fel, amelyet ausztrál és német kutatók fejlesztettek ki...

csütörtök 20:23

Az új MacBook Neo: végre megfizethető a javítás

Az Apple új MacBook Neo modellje alaposan felforgatja a belépőszintű laptopok világát: a gép 599 dolláros (kb...

csütörtök 20:12

Az MI-vezérelt kiberbűnözés elszabadul: 2026-ban egyre kilátástalanabb a védekezés

Érdekes felvetés, hogy 2026-ra a kiberbűnözés minden eddiginél szervezettebbé és hatékonyabbá vált...

csütörtök 19:46

Az univerzum pí-üzenetei: amikor a véletlen nem véletlen

💫 Különösen igaz ez akkor, ha a matematika egyik legkülönösebb állandóját, a pi-t szeretnénk megtalálni a mindennapi dolgokban...

csütörtök 19:34

Az MI-hullámot meglovagolja a Webflow: érkezik az új tartalomgyártó platform

A Webflow, amely weboldal-építést és tárhelyszolgáltatást kínál, most egy úttörő MI-megoldással erősít: felvásárolta a Vidosót, hogy marketingcsomagját bővítse...

csütörtök 19:24

Az amerikai hatóságok lebuktatták és felszámolták a SocksEscort kiberbűnözői hálózatot

Az Egyesült Államok és Európa bűnüldöző szervei, valamint magáncégek közös akciójának köszönhetően sikerült felszámolni a SocksEscort nevű kiberbűnözői proxihálózatot...

csütörtök 19:13

Az égi taxi tíz utassal: Kínában sikeres az első repülés

🛫 Kína hatalmas, elektromos, függőleges fel- és leszállásra képes repülőgépe, a V5000 most először teljesített sikeres tesztrepülést...

csütörtök 18:56

Az olaj ára szárnyal, bajban a bitcoinbányászok?

🚀 Ahogy a kőolaj ára 100 dollár (körülbelül 36 500 forint) fölé emelkedik a közel-keleti feszültségek miatt, sokan aggódnak, vajon az emelkedő energiaköltségek megrázzák-e a Bitcoin-hálózatot...

csütörtök 18:46

Az Android-csúcsmobilok bootloaderét mostantól bárki kinyithatja?

A Qualcomm legújabb zászlóshajó processzora, a Snapdragon 8 Elite Gen 5 egyre több prémium okostelefon alapja lett...

csütörtök 18:41

A Claude mostantól csevegés közben is képeket készít neked

📷 A Claude AI chatbotja mostantól nemcsak beszélget, hanem lenyűgöző vizuális anyagokat is megjelenít neked, közvetlenül a csevegés folyamán...

csütörtök 18:02

Az MI-feketelista sem állítja meg a Palantirt: marad a Claude

Egy lényeges szempont, hogy a Palantir továbbra is használja az Anthropic által fejlesztett MI-nyelvi modellt, a Claude-ot, miközben az amerikai védelmi minisztérium már feketelistára tette az Anthropicot...

csütörtök 17:59

Az 500 ezres mobil, amit 2026-ban vennénk: Pixel 10a teszt

A Google Pixel 10a egyszerre képes lenyűgözni és dühíteni a techrajongókat...

csütörtök 17:46

Az új BlackCat-botrány: piszkos üzletek a zsarolóvírus-tárgyalóknál

Egyre több volt DigitalMint-alkalmazottról derül ki, hogy a kiberbiztonsági cég egyes zsarolóvírus-tárgyalói titokban a BlackCathez (ALPHV) bűnszervezettel működtek együtt...

csütörtök 17:34

Az új Rivian R2 drágábban rajtol, az olcsóbb verzióra sokat várhatsz

🚗 Amikor bemutatták a Rivian R2-t, sokan abban bíztak, hogy végre lesz egy jól felszerelt, mutatós elektromos SUV, amit nemcsak a leggazdagabbak engedhetnek meg maguknak...

csütörtök 17:24

Az MI új diadala: robbanásszerűen szaporodnak a közös téveszmék

💡 Napjaink MI-rendszerei, mint a ChatGPT vagy a Gemini, mindennapos partnerekké váltak a gondolkodásban, a problémamegoldásban és az emlékek felidézésében...

csütörtök 17:12

A nagy trükk: mintázott 3D-nyomtatás magasságnövelés nélkül

A 3D nyomtatás világában mindenki odavan a ragyogóbb, simább, tökéletesebb felületekért, de most valami egészen menő dolog született...

csütörtök 17:01

Az új ultrahangképző szimulátor áttörést ígér az endometriózis felismerésében

💉 A mindennapjait megkeserítő, szúró fájdalom éveken át is rejtve maradhat – ez az endometriózis egyik legnagyobb tragédiája...

csütörtök 16:56

Az Apple a régi készülékein is kivédte a Coruna-hacket

🛡 Az Apple nemrég frissítéseket adott ki, hogy a régebbi iPhone- és iPad-modelleken is kijavítsa a Coruna exploitcsomaggal célzott súlyos sérülékenységeket...

csütörtök 16:45

A Honda amerikai villanyautó-terve bedőlt: sokk és kínai pánik

Három új elektromos autót dobott volna piacra a Honda az USA-ban, de most lehet, hogy pipa, mert az egész tervet kidobták az ablakon...

csütörtök 16:34

A Bitcoin-piac tombol: pánik a tömegben, mégis kitart az árfolyam

💸 Szinte mindenki pánikol a Bitcoin-piacon, mégsem dőlt be a buli. Több fronton is dúl a feszültség: a közel-keleti feszültségek óta folyamatosan adják el a Bitcoint az összes tárcaméretben, de az árfolyam még mindig közel 25 millió forintnál (70 000 USD) oldalaz...

csütörtök 16:20

Az agysejtek energiaínsége áll a depresszió mögött?

💡 A depresszió eredetét régóta kutatják, de most új nyomokra bukkantak a tudósok: az agy- és vérsejtek energiahasznosításában mutatkozó zavarok lehetnek felelősek a betegség kialakulásáért...

csütörtök 14:03

Az év legnagyobb adatbotránya: egymilliárd ember adata került ki

💡 A világ eddigi egyik legsúlyosabb adatvédelmi incidense során csaknem egy milliárd személyazonosítási adat került ki a nyílt internetre...

csütörtök 13:59

A Meta új MI-chipjei köröket vernek a riválisokra

🚀 Érdekes felvetés, hogy a Meta négy vadonatúj, saját igényeire szabott MI-chipet mutatott be, amelyek közül több már most is nagyvállalati rendszerekben fut, sőt néhány felülmúlja a legjobb, kereskedelmi forgalomban kapható riválisokat...