2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 13:03

Az MI-tanító botokat mostantól tényleg te irányítod

Tipikus eset, amikor egy fejlesztői platform rosszul dokumentált, elavult információkat tartalmaz, és ezek az adatok rendre bekerülnek a mesterséges intelligenciát betanító rendszerek tudástárába is...

MA 12:57

Az okos alakzatok végre tökéletesre csiszolhatják a Kindle Scribe-ot

Sokan várták már azt a fejlesztést, amely a Kindle Scribe készüléket a digitális jegyzetelők élvonalába repítheti: mostantól lehetőség van okos alakzatok használatára, amelyek azonnal szép, szabályos formát adnak a vázlatoknak...

MA 12:46

Az iPhone 17 véget vet a középkategóriás Androidoknak?

📱 A jelenlegi gazdasági helyzetben az emberek egyre inkább az „elég jó” elv mentén döntenek, amikor okostelefont választanak...

MA 12:34

A dalosmadarak veszedelmes titka: így írják át az agyunkat

Az emberi test folyamatosan megújul: a vörösvértestek négyhavonta, a bőr és a bél nyálkahártyájának sejtjei néhány nap vagy hét alatt teljesen kicserélődnek...

MA 12:24

A valódi veszély: kilenc perc alatt lenyúlhatják a bitcoinodat?

🔒 A bitcoin védelmi rendszere eddig megoldhatatlannak tűnő matematikai rejtvényeken alapul, de a kvantumszámítógépek megjelenése mindent átírhat...

MA 11:57

Az ötven felettiek titkos fegyvere lehet a kitörés

💪 Érdemes megérteni, hogy a modern fitneszipar által kínált bonyolult gépek, hosszú futópados edzések vagy trendi kondibérletek nem feltétlenül kínálják a legjobb megoldást annak, aki erős és egészséges szeretne maradni ötvenéves kor felett...

MA 11:46

A kerékpáros biztonság nagy áttörése: apró, mégis zseniális kütyü

🚲 Például amikor egy komoly bringás baleset után újragondolod, hogyan navigálsz a városban biciklivel, hamar rájössz, hogy a kormányra szerelt okostelefon nem a legbölcsebb választás...

MA 11:34

Az Apache ActiveMQ súlyos hibájára vadásznak a hackerek

🕵 Az Apache ActiveMQ kritikus, nemrég befoltozott biztonsági hibáját már aktívan kihasználják a támadók...

MA 11:12

Az iráni sokk: Szédületesen hasítanak a kriptórészvények

📈 Hihetetlen, de mégis igaz, hogy a bitcoin az utóbbi két hónap legmagasabb árfolyamát érte el, közel 78 000 dolláron (27,7 millió forint), miután kedvező hírek érkeztek az iráni háború lezárásának lehetőségéről és a Hormuzi-szoros megnyitásáról...

MA 11:04

Az MI-ügynökök lázadnak: védtelenek a cégek?

A vállalatok zöme továbbra is tehetetlen a harmadik szintű MI-ügynökök jelentette fenyegetésekkel szemben, miközben ezek az automatizált rendszerek egyre bátrabban lépnek át a biztonsági vonalakon...

MA 10:56

A 2026 előtti RAM-pánik felpörgeti az új PC-k vásárlását

💻 Fontos kérdés, hogy mi áll a világszerte tapasztalható, hirtelen megnövekedett számítógép-vásárlási hajlandóság mögött...

MA 10:50

Az összeütköző fekete lyukak gravitációs hullámai elérhetik a Földet

🔴 Egy, a Földtől 500 millió fényévre található galaxisban két óriási fekete lyuk sodródik végzetes összeütközés felé, amelynek hatásait akár száz éven belül is megérezheti a Föld...

MA 10:36

Az agy programozza a fájdalmat: miért nem múlik a krónikus szenvedés?

Például egy törött kar hamarabb gyógyul, hiszen a begipszelés, a fájdalomcsillapítás és néhány jó tanács gyorsan visszaterel a normális életbe...

MA 10:29

Az eltűnt óriástó nyomában: tényleg így született a Grand Canyon?

🚀 Új kutatások szerint a Colorado-folyó nem egyből vájta ki a Grand Canyont, hanem előbb egy hatalmas tóban gyűlt össze, és csak később szakadt át, hogy megkezdje ma ismert útját a mély szurdokon keresztül...

MA 10:23

Az MI betör a dizájnba: jön a Claude Design, a Figma réme?

A dizájnszoftverek piacára új kihívó érkezett: az Anthropic bemutatta legújabb fejlesztését, a Claude Design-t, amely képes teljes értékű, vizuálisan kidolgozott terveket, interaktív prototípusokat, prezentációkat, one-pagereket és marketinganyagokat készíteni egyszerű szöveges utasításokra...

MA 10:15

Az orosz kriptóóriást kifosztották: 5,5 milliárd forint tűnt el

💰 A Kirgizisztánban bejegyzett, amerikai szankciókkal sújtott Grinex kriptotőzsde bejelentette, hogy leállítja működését, miután 5,5 milliárd forint (15 millió dollár) értékű vagyont loptak el tőle – állítólag „barátságtalan országok” titkosszolgálatainak közreműködésével...

MA 10:02

Az európai Mars-szonda végre zöld utat kap: a NASA újra beszáll

A NASA ismét bekapcsolódott az Európai Űrügynökség (ESA) Rosalind Franklin marsjárójának küldetésébe, amelynek célja az élet nyomainak keresése a vörös bolygón...

MA 09:58

Az alvilági kártyapiac titkai: így választanak boltot a bűnözők

💳 Az ellopott bankkártyaadatokkal kereskedő alvilági piac mindig is ingatag, kiszámíthatatlan terepnek számított, ahol még a tapasztalt bűnözők is gyakran esnek csalás, lehúzás vagy hatósági lebuktatás áldozatául...

MA 09:22

Az Android Canary végre megérkezik a régebbi Pixelekre is

Áprilisban jelentős mérföldkőhöz érkezett a Google: az Android Canary 2604 verziója már nemcsak a legújabb Pixel 8-as sorozaton fut, hanem immár elérhető a Pixel 6 és Pixel 7 szériára, valamint a Pixel Foldra és a Pixel Tabletre is...

MA 09:18

Az MI-képes weboldalak új korszaka: megérkezett az Agent Readiness-pontszám

🤖 A web evolúciója folyamatosan új elvárások elé állítja a fejlesztőket és a vállalkozásokat...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjét lefedi, így segít elsajátítani az automatikus szófelismerést, ami elengedhetetlen a funkcionális írástudáshoz...

MA 09:08

Az amerikai adatközpontok óriásit csúsznak

Óriási lendülettel indult az MI-őrület az Egyesült Államokban, a világ techközpontjai dollárszázmilliárdokat ölnek egyre nagyobb és energiaéhes adatközpontok építésébe...

MA 09:04

A sosem felejtő MI-ügynök: megérkezett az Agent Memory

Érdekes felvetés, hogy mennyire fontos az MI-ügynökök számára a tartós emlékezet...

MA 08:57

A gyógyítás forradalma vagy illúzió? Az MI a tények tükrében

Az egészségügyi forradalom új hőse a mesterséges intelligencia, legalábbis ezt harsogják a nagyvállalatok...

MA 08:50

Az észak-angliai viking sziget egén felrobbant egy élénkzöld tűzgömb

💥 A hét elején Lindisfarne, azaz a Szent Sziget éjszakai egét vadul hasította át egy élénkzöld tűzgömb, amely a 8...

MA 08:43

Az MI-ben még a légitársaságoknál is kevésbé bízunk – miért?

Azt vizsgálták, hogyan viszonyulnak az emberek az MI-hez, különösen az ismert platformokhoz, mint a Google Gemini és a ChatGPT...

MA 08:36

A csődbe ment startupok már a Slack-csevegéseket is eladják

A startupok világa néha elég vad, de még a haláluk után is simán termelnek pénzt...

MA 08:22

A NIST visszavág: kizárólag a legveszélyesebb biztonsági hibákra fókuszál

Az elmúlt években hatalmas, 263%-os növekedés történt a szoftverek sérülékenységi bejelentéseiben, ezért az amerikai Nemzeti Szabványügyi és Technológiai Intézet (NIST) jelentősen szűkíti a CVE-adatok részletes feldolgozásának körét...

MA 08:01

Az új Galaxy Z TriFoldnál is vékonyabb, könnyebb utód készülhet

A Galaxy Z TriFold, a Samsung úttörő, háromszor hajtható okostelefonja villámgyorsan elfogyott a legutóbbi kiárusításon, így hivatalosan is elérhetetlenné vált...