2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 17:23

Az új kriptoőrület: száguld a Bitcoin, tombol a RAVE

Külön említést érdemel, hogy az elmúlt napokban a Bitcoin továbbra is stabilan tartja magát 25,5 millió forint (70 000 USD) körül, még akkor is, ha világszerte erősödnek a geopolitikai feszültségek, és a hagyományos piacok inkább a biztonságot keresik...

MA 17:12

A legutóbbi, alattomos Windows-frissítés ellopja a jelszavaidat

🔒 Erre utal többek között az, hogy a csalók már hamis Windows-támogatói oldalakkal tévesztik meg a felhasználókat, ahol egy látszólagos, „összegző frissítés” (cumulative update) nevű Windows-frissítést kínálnak a 24H2-es verzióra...

MA 17:01

Az MI miatti elbocsátási csapda: amikor a robotok romba döntik a gazdaságot

Ha a mesterséges intelligencia gyorsabban váltja le az embereket a munkahelyeken, mint ahogy a gazdaság újra képes felszívni őket, az könnyedén kiütheti az alapokat a fogyasztói kereslet alól – ami nélkül a cégek is pórul járnak...

MA 16:47

Az örök fiatalság nyomában: rajtol az emberkísérlet

A sötét mikroszoba fojtogató csendjében Yuancheng Ryan Lu levegőért kapkodott, miközben a tárgylemezen egy apró csoda született...

MA 16:35

A népszerű PC-diagnosztikai oldalról szabadult el egy veszélyes trójai

🐛 A népszerű CPUID.com oldalt néhány órára feltörték, és alattomos trójai fertőzések kiindulópontjává vált...

MA 16:12

A valódi szabadság: techállások, amelyekkel bárhol élhetsz és dolgozhatsz

🌍 Általános home office? Hát persze, ki ne unná már, hogy a kanapé sarkából meetingel minden második kocka...

MA 16:01

Az áttörés küszöbén: új gyógyszer reményt hoz a hasnyálmirigyrákban

💉 Fontos kérdés, hogy van-e valódi előrelépés a hasnyálmirigyrák gyógyításában, amely a legalacsonyabb ötéves túlélési aránnyal rendelkező daganatos betegségnek számít, mindössze 13%-kal...

MA 15:46

Az iPhone Csendes és Ne zavarjanak között mi a különbség?

Érdemes megvizsgálni, mikor érdemes némítani az iPhone-t, hiszen rengeteg olyan helyzet adódik, amikor nem jön jól, ha pittyeg vagy rezeg a telefon: egy fontos megbeszélés, tanóra vagy éppen egy film alatt...

MA 15:23

Az X hadat üzen a kattintásvadász tartalomgyárosoknak

Az X, Elon Musk vezetésével, jelentősen csökkentette azoknak a felhasználóknak a kifizetéseit, akik kattintásvadász vagy másoktól átvett híreket osztanak meg...

MA 15:12

Az új pénzügyi vészfék: jönnek a tőzsdei védelmi szabályok a kriptóra is?

A Bank of Korea meglepő javaslatot tett: bevezetnének a koreai kriptotőzsdéken olyan vészféket, amilyen a hagyományos tőzsdéken is működik...

MA 15:02

Az otthoni riasztórendszer telepítése: megéri profikra bízni?

Manapság, ha saját otthonod biztonságára keresel megoldást, két út közül választhatsz: vagy mindent magadra vállalsz, vagy profi szakemberre bízod a telepítést...

MA 14:57

Az MI-vel túlfűtött Windows végre meghátrál

Nemrégiben a Windows-felhasználók egyre többször szembesültek azzal, hogy a Microsoft mindenhová megpróbálta beépíteni a Copilot nevű MI-t – legyen szó a Jegyzettömbről, a Widgetekről vagy éppen a Képmetszőről...

MA 14:46

Az Intel Nova Lake-szivárgás megrengeti a processzorpiacot

Jelentős fejlemények látszanak az Intel háza táján a közelgő Nova Lake chipek kapcsán: kiszivárgott információk szerint számos új Core Ultra 400-sorozatú processzor várható az év második felében, melyekkel a vállalat újra megpróbálja uralni az asztali processzorpiacot...

MA 14:23

A rejtett Android-beállítás, amit szinte senki sem talál meg

Az Android messze legjobb funkciói közé tartozik az értesítési rendszer, aminek rengeteg apró, finomhangolt beállítása van...

MA 14:02

Az Android mostantól kőkeményen leszámol a csaló hívásokkal

📞 Fontos kérdés, hogy hogyan védheti meg a Google az okostelefon-használókat az egyre szaporodó telefonos csalásoktól...

MA 13:57

A mesterséges intelligencia felforgatja az ERP‑befektetések játékszabályait

Évtizedeken keresztül az ERP-rendszerek bevezetése szinte sportteljesítmény volt: cégek egész sereg tanácsadót mozgósítottak, éveken át tartó zűrzavarra készültek, és vagyonokat költöttek egy merev, tíz évre szánt óriásrendszerre...

MA 13:23

A természetes Ozempic: új csodafegyver az elhízás ellen

🥒 Fontos kérdés, hogy lehetséges-e mellékhatások nélkül fogyni a gyógyszeripar csodaszereinek hatékonyságával...

MA 13:12

A WeWork visszatér? Telefonfülkékkel támad a bukás után

💬 Fontos kérdés, hogy van-e visszaút a látványosan megbukott startupok számára, különösen, ha egykor a világ megváltását ígérték...

MA 13:02

Az ébredő fekete lyuk kitörése felrázta a kozmoszt

Egy óriási fekete lyuk újra felébredt, és kitörése most úgy ragyogja be az univerzumot, mintha egy kozmikus vulkán törne felszínre – mindezt közel egymillió fényévnyi kiterjedésben...

MA 12:47

Végre érthetők a párbeszédek: itt az új hangprojektor

🔊 Érdekes felvetés, hogy a tévéműsorok és filmek hangja gyakran érthetetlen, aminek oka részben a beépített tévéhangszórók gyenge minősége, részben pedig a hangsávok egyre összetettebb felépítése...

MA 12:34

Az OpenAI végre nagyban betör Londonba – Stargate nélkül

Fontos fejlemény, hogy az OpenAI jelentős lépést tett a brit fővárosban: megnyitja végleges londoni irodáját, amely több mint 500 munkatárs befogadására alkalmas – ez a jelenlegi létszám kétszerese...

MA 12:23

Az összeomlás után gyökeresen átszabják a StarkWare-t

⚡ A StarkWare alaposan átszervezi működését, miután a Starknet nevű hálózatukból származó bevételek több mint 99%-kal estek vissza a 2023 végi csúcsról...

MA 11:35

Az extrém aszály térdre kényszeríti Corpus Christit: vihart kérnek

A déli Texasban fekvő Corpus Christit a hosszú évek óta tartó szárazság kritikus helyzetbe sodorta...

MA 11:24

A kínai repterek új réme: kötelező powerbank-ellenőrzés

Kína nemcsak a kulturális különbségekről, hanem a technológiai szabályokról is híres...

MA 11:13

Az MI és a hit találkozása: egy chatbot útkeresése

A technológiai fejlődés eddig soha nem látott dilemmák elé állítja az emberiséget...

MA 10:57

A Surfshark új Dausos protokollja: villámgyors VPN, nagyobb biztonság

A megszokott VPN-élményt most egy újítás emeli magasabb szintre, amely akár 30%-kal gyorsabb sebességet, fejlettebb adatvédelmet és dedikált, privát szerveroldali alagutat kínál minden egyes felhasználónak...

MA 10:50

Az év kriptocsalása: milliárdnyi DOT-zápor, filléres zsákmány

Egy ügyes támadó vasárnap hajmeresztő, de végül szerencsétlen akciót vitt véghez az Ethereum hálózatán, ahol sikerült 1 milliárd Polkadot tokent (nagyjából 440 milliárd forint értékben) kibocsátania a Hyperbridge egyik hibás szerződésében...

MA 10:37

Az MI-háború új frontja: rohamra indulnak a nyílt modellek

🛡 A tavasz megérkezésével a Google, a Microsoft, az Alibaba és az Nvidia újabb hullámban jelentették meg az általuk fejlesztett nyílt súlyú MI-modelleket...

MA 10:29

Az elképesztő LEGO-rablás: csúfosan bedőlt a nagy terv

🧸 Milliós LEGO-lopás, menekülő, játékokkal teli dobozos teherautók, és persze mindenki azt hinné, hogy valami Guy Ritchie-film forog a Mojave-sivatagban...