2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 16:35

A Google új AI-ja Redditről és közösségi médiából gyűjt szakértői tippeket?

🔍 A Google új keresőeszköze röviden összefoglalja a Redditről és más közösségi médiából származó tanácsokat: az úgynevezett „Szakértői tanácsok” (Expert Advice) panel előnézetben mutatja a nyilvános online beszélgetések és egyéb források nézőpontjait...

MA 16:23

A nagy bitcoin-kitörés elmaradt – a történelem óvatosságra int

Az elmúlt napokban a bitcoin árfolyama közel járt ahhoz, hogy áttörje a régóta figyelt 200 napos egyszerű mozgóátlag szintjét, de végül 81 000 dollár környékére húzódott vissza...

MA 16:13

Az Andes-vírus, az egyetlen emberről emberre terjedő hantavírus, lecsapott az óceánjárón

Az Atlanti-óceánon haladó MV Hondius nevű luxushajón nyolc ember fertőződött meg hantavírussal, közülük három meghalt, és többen továbbra is orvosi kezelésre szorulnak...

MA 16:02

Az amerikai részvénypiaci rali a mánia küszöbén?

A tőzsde történetének egyik legsodróbb árfolyam-emelkedése új csúcsokra repítette a részvényeket...

MA 15:56

A Bitcoin nyeri az intézményi befektetőkért vívott háborút

Ebből következően érdemes megérteni, hogy a befektetési szféra szemében egyre fontosabbá válik a biztonság...

MA 15:45

Az új hormonterápia megálljt parancsol a veszélyes, korral gyűlő hasi zsírnak

Az életkor előrehaladtával a test zsíreloszlása jelentősen átalakul. A bőr alatti, úgynevezett szubkután zsír önmagában még hasznos is, viszont a zsigeri zsír már komoly egészségügyi kockázatot jelent...

MA 15:34

Az altcoinok szárnyalnak, a bitcoin és az ether lejön a heti csúcsról

A hét derekán alaposan átrendeződött a kriptovaluta-piac, amikor az alternatív tokenek (altcoinok) váratlanul túlszárnyalták a vezető szereplőket...

MA 15:23

Az adathalászok Google-hirdetéseket lovasítanak meg, GoDaddy-eszközt mímelve

Ami először apróságnak tűnt, mára veszélyes átveréssé nőtte ki magát: csalók a Google-hirdetéseit használják fel arra, hogy ártalmatlan keresési találatok mögé bújva felhasználókat ejtsenek csapdába...

MA 15:12

Az Ozempic titka: miért hat jobban egyeseknél?

🧠 Erre utal többek között az, hogy azok a cukorbeteg páciensek, akik elsősorban azért esznek túl, mert csábító az étel látványa vagy illata, sokkal eredményesebben fogynak, és javítják vércukorszintjüket Ozempic (vagy ahhoz hasonló GLP-1-gyógyszer) szedése esetén, mint azok, akik inkább stressz vagy rossz hangulat miatt esznek...

MA 15:01

A trójai falóként támadó új gyógyszer látványosan fogyaszt

🧪 Fontos kérdés, hogy miként lehet hatékonyabban és biztonságosabban kezelni az elhízást és a 2-es típusú cukorbetegséget...

MA 14:56

Az alaplapgyártók válságban: egyre kevesebben építenek új PC-t

📈 A PC-építés világa megrendült, az alaplapgyártók eladásai évtizedes mélyponton vannak. Nem elég, hogy folyamatosan drágul a memória, a közel-keleti háborús helyzet is árfelhajtó hatást gyakorol, így a saját gépet építők egyre kevésbé érzik érdemesnek új gépbe fektetni...

MA 14:34

Az angolok védőérméiből viking ékszer lett – szinte tragikomikus

💎 Két különleges ezüstpénz került elő Dániában, amelyeket eredetileg Angliában vertek a viking portyázók elleni védelem reményében...

MA 14:23

A tartós BTC-bikapiac milliónyi tokent söpörhet el – Ben Cowen

📈 A kriptovilág alapvetően a kockázatról szól, de az elmúlt években sosem látott áradattal jelentek meg az értéktelen, spekulatív tokenek...

MA 14:01

Az A fiúk fináléja nem töltelék – Kripke visszavág

💥 Az A fiúk (The Boys) ötödik, egyben befejező évada alaposan felkavarta a rajongók állóvizét...

MA 13:57

A One UI 8.5 végre megérkezett a Galaxy készülékekre – itt a lista

Külön említést érdemel, hogy hosszas várakozás után a Samsung végre megkezdte a One UI 8...

MA 13:45

A házvendég 10 milliót követel Renée Zellwegeréktől és Ant Ansteadtól

😡 Ant Anstead bérelt házában történt furcsa baleset komoly jogi vitát szült...

MA 13:35

Az új vízalapú akku a 24. századig bírja – és lebomlik

Egy új, vizes alapú akkumulátor minden eddiginél hosszabb élettartamot ígér, miközben teljesen biztonságosan kidobható a környezetbe: semmilyen mérgező anyagot nem tartalmaz...

MA 12:34

Yat Siu szerint a jövő 100 milliárd MI‑ügynök, a metaverzum csak háttér

🤖 A metaverzumról alkotott kép radikálisan átalakul. Yat Siu, az Animoca Brands elnöke szerint a jövő már nem az emberek VR-sisakos álomvilágába vezet, hanem a digitális háttérben dolgozó, önjáró MI-ügynököké...

MA 12:23

A BNY, a világ legnagyobb letétkezelő bankja, bővíti kriptoszolgáltatásait Abu-Dzabiban

💰 Jellemző példa erre, hogy a New York-i BNY, amely 59 billió dollár (kb...

MA 11:23

A DNS-ed többet árul el a sikeredről, mint a neveltetésed?

🤓 Kezdetben mindenki azt hitte, hogy a siker kulcsa a családi háttérben és a gondos nevelésben rejlik...

MA 11:12

A kalap, amiért egykor mindent kockára tettek az angolok

🎩 Az ember azt hihetné, a kalap sosem volt más, mint divatos kiegészítő vagy a rossz idő elleni védelem...

MA 11:01

A tudósok véletlenül rábukkantak az élet szabályait felrúgó DNS-re

Újragondolásra késztet, mennyire állandóak a biológia alapelvei: egy mikroszkopikus élőlény váratlanul felülírta az egyik legfontosabbat...

MA 10:50

Az AI-kor piackutatása: 60 ezer digitális iker válaszol azonnal

🌐 Fontos kérdés, hogy a gyorsan változó világban mennyire számít még a hagyományos piackutatás, ha egyetlen TikTok-videó már világszerte trenddé emelhet egy márkát néhány óra alatt...

MA 10:43

Az intézmények banki mintára kérik a kriptóhiteleket

💳 Bitcoinnal foglalkozó nagyvállalatok ma már nem elsősorban az úttörő decentralizált pénzügyi megoldásokért lelkesednek, hanem az átláthatóságot, az egyértelmű szabályokat és a jól értelmezhető kockázatkezelést keresik...

MA 10:29

A modern kiberbűnözés alappillére: 15 ezres MI-befektetési csaláshálózat leleplezve

Jellemző példa erre, hogy egy több mint 15 000 oldalból álló, kiterjedt hálózat hirdeti hamis MI-befektetési ajánlatait, és mindehhez népszerű hirdetéskövető szolgáltatásokat használ fel...

MA 10:23

A KitchenAid félautomata eszpresszógép zseniális – minden kézi gépre lapos fenekű portaszűrőt

☕ Érdemes megvizsgálni, mennyire változtatja meg a reggeli kávéélményt a KitchenAid legújabb félautomata eszpresszógépe, amely egyszerre ötvözi a klasszikus dizájnt és a modern, letisztult kezelőfelületet...

MA 10:15

Az American Bitcoin 23%-kal vágta a költségeit, AI-ra áll át

💸 Az American Bitcoin, amely a Trump fivérekhez köthető, az első negyedévben jelentősen csökkentette a bitcoinbányászati költségeit: 23%-kal kevesebbet, mintegy 13,1 millió forintot (kb...

MA 09:50

Az Atari megvette a Wizardry jogait, indul az újrakiadás-hadjárat

🎮 Érdemes megvizsgálni, milyen hatással lehet a klasszikus szerepjátékok világára, ha egy olyan ikonikus sorozat, mint a Wizardry, visszatér a piacra...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     DualShot Recorder (iPhone/iPad)A DualShot Recorder alkalmazás lehetővé teszi, hogy egyszerre függőleges és vízszintes videófelvételeket készíts...