2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

szombat 17:38

Az MI váratlan arca: erre nem készített fel a kézikönyv

🤔 Az MI-vel foglalkozó kutatók újabb meghökkentő felfedezésre jutottak: a nagy nyelvi modellek spontán, előzetes utasítások nélkül is képesek önálló személyiséget kialakítani...

szombat 17:20

Egy óriási fekete lyuk átírja a galaxisokról alkotott képet

🔵 A Hawaii-n működő W. M. Keck Obszervatórium, a James Webb Űrtávcső és a Very Large Array rádióteleszkóp együttes megfigyelései során sikerült azonosítani egy hihetetlenül nagy, „imbolygó” fekete lyuk-kilövellést, amelynek átmérője egy teljes galaxis szélességével vetekszik...

szombat 17:01

Az átváltozó polimerbőr: színt vált víz hatására

A Stanford Egyetem kutatói új polimert fejlesztettek, amely szabad szemmel látható mintákat és színeket hoz létre, ha vízzel érintkezik...

szombat 16:56

Az Apple legújabb MI-kütyüje: tényleg senkinek sem kell?

🤔 Az Apple egy teljesen új, viselhető MI-eszköz kifejlesztésén dolgozik, amely akár 2027-ben piacra kerülhet...

szombat 16:37

Az okoseszközöd már elavult? Nyugi, így hozd ki belőle a legtöbbet!

Az okoseszközök világa gyorsan változik, és amit évekig használtál, egy nap elveszítheti a gyártói támogatást...

szombat 16:19

A bálnavadászat titkai: ősi szigonyok írják át a múltat

🐳 Első pillantásra úgy tűnt, a bálnavadászat csak az északi, fagyos vizek közösségeit jellemezte...

szombat 16:01

A félvállról vett VMware-sebezhetőségek még mindig lecsapnak

⚠ A VMware vCenter Server kritikus, több mint egy éve javított sérülékenysége ismét aktív támadások célpontja lett...

szombat 15:55

Az Nvidia Arm‑os laptopjai fenekestül felforgatják a piacot

⚡ Végre megtörni látszik az Intel és az AMD uralma a Windows laptopok világában: az Nvidia idén tavasszal akár nyolc Arm-alapú, Windowst futtató noteszgéppel készül a piacra lépni...

szombat 15:39

Az USA kiberbiztonsági hivatala váratlanul távol marad az év legnagyobb IT-konferenciájától

🔒 Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) nem vesz részt az idei RSA Conference-en, amelyet márciusban rendeznek San Franciscóban...

szombat 15:19

Az ipari rendszerek Achilles-sarka: a telnetd sebezhetőség

Már 11 éve lappang egy rendkívül súlyos sebezhetőség a GNU InetUtils telnetd rendszerében, amit hackerek nemrég elkezdtek aktívan kihasználni...

szombat 14:55

Az okosórák négyszer több szívritmuszavart szűrnek ki

Egy friss klinikai vizsgálat szerint a stroke szempontjából magas kockázatú, Apple Watchot viselő időseknél négyszer gyakrabban észleltek kóros szívritmuszavart, mint azoknál, akik csak hagyományos orvosi ellátásban részesültek...

szombat 14:38

Az otthonod téli védelme: erre figyelj, mielőtt késő!

A tél nemcsak a meghittséget hozza el, hanem a veszélyeket is: a fagyott csövek, kéménytüzek, illetve a fűtési rendszer hibái könnyen súlyos károkat okozhatnak, amelyek akár több százezres javítási költségekkel is járhatnak...

szombat 14:19

Az új aranybánya: a ShinyHunters tarol az SSO-fiókokon

Hihetetlen, de mégis igaz, hogy a hírhedt ShinyHunters zsarolócsapat ismét lecsapott, ezúttal vállalati SSO-fiókok feltörésével az Okta, a Microsoft és a Google rendszereiben...

szombat 13:57

Az egyik leggyorsabban növekvő fekete lyukat fedezték fel az űrben

Néhány fekete lyuk szabálytalanul viselkedik: most a csillagászok egy olyan távoli kvazárt fedeztek fel, amelynek központi fekete lyuka minden eddigi elméletet meghazudtolva őrült tempóban falja fel a környező anyagot...

szombat 13:37

A davosi csúcson MI-láz és geopolitika: erre fókuszálnak a techvezérek

💻 A világ legnagyobb technológiai cégeinek vezetői ismét Davosban találkoztak a Világgazdasági Fórumon, ahol az idei év legégetőbb témái kerültek terítékre...

szombat 13:01

A Chromebookon nevelkedett diákokból lesznek a Google leghűségesebb vevői?

💻 A Google belső dokumentumai szerint már az iskolában elkezdődhet a márkahűség kialakítása, ha a diákokat idejekorán bevezetik a vállalat ökoszisztémájába...

szombat 12:55

Vége a lazaságnak az amerikai reptereken: jönnek az új azonosítási díjak

Február 1-jétől az amerikai belföldi járatokra szigorúbb beléptetési feltételekre kell számítani, így akik nem rendelkeznek Real ID-vel vagy más elfogadott személyazonosítóval, akár 45 dolláros (kb...

szombat 12:38

Az új, színes rádiókép felforgatja, amit a Tejútrendszerről tudtunk

Lenyűgöző, minden eddigit felülmúló rádiófrekvenciás felvételt készítettek a Tejútrendszerről, amely nemcsak csillagszületéseket, hanem szupernóvák maradványait és gigászi galaktikus szerkezeteket is láthatóvá tesz...

szombat 12:20

Az emberformájú robotok kora: társaink vagy fenyegetés?

🤖 Érdemes megvizsgálni, hogy az emberformájú robotok rohamos fejlődése miként változtathatja meg mindennapjainkat, illetve milyen hatással lehet arra, hogyan viszonyulunk egymáshoz, az emberekhez...

szombat 12:02

Megéri a Loch Capsule, az apró, villámgyors okos mosogatógép?

A Loch Capsule nevű pultra helyezhető mosogatógép minden szempontból igazi újdonság: kicsi, hatékony, gyors, sőt, még a kütyüket is fertőtleníti...

szombat 11:55

Az SEC eláll a pertől: fellélegezhetnek a Winklevoss testvérek

Az amerikai Értékpapír- és Tőzsdefelügyelet (SEC) váratlanul visszavonta a pert a milliárdos Winklevoss testvérek nevével fémjelzett Gemini kriptotőzsdével szemben, amelyet a már megszűnt, Earn nevű befektetési termékük miatt indítottak...

szombat 11:37

Az MI-kódsegédek falják a fejlesztők adatait

Két ártó szándékú, MI-alapú kódsegéd bukkant fel a Visual Studio Code (VS Code) Marketplace-en, amelyek összesen másfél millió alkalommal kerültek telepítésre, és titokban Kínába szivárogtatták ki a fejlesztők adatait...

szombat 11:19

Az App Store keresését elárasztják az újabb reklámok

🔍 Március 3-tól az Apple tovább növeli a hirdetések számát az App Store keresési találatai között...

szombat 11:02

Az igazság ára: Miért érezzük, hogy visszaélnek velünk?

Ha egy háztartásban, munkahelyen vagy közösségben fel kell osztani a feladatokat, az igazságtalanság érzése szinte elkerülhetetlen...

szombat 10:57

Az MI-vel chatelő tiniknek mostantól jár a pihenő

A Meta ideiglenesen leállítja a tinédzserek hozzáférését MI-karaktereihez, miközben egy új, jobb felhasználói élményt nyújtó verziót fejleszt...

szombat 10:49

A szélsőséges téli viharok kaotikus tudománya

❄ Az Egyesült Államokat szokatlanul erős, életveszélyes hideghullám éri el napokon belül...

szombat 10:33

Az Ethereum mindent kockára tesz a kvantumfenyegetés ellen

Az Ethereum Foundation (EF) mostantól első számú stratégiai célnak tekinti a kvantumszámítógépek elleni védelmet, és ehhez külön posztkvantum-csapatot hozott létre Thomas Coratger vezetésével, Emile, kriptográfiai szakértő, támogatásával...

szombat 10:27

Az internet megőrült: brutális BGP útvonal-szivárgás bénította a hálózatot

💥 Felmerül a kérdés, hogy mennyire lehetünk biztonságban, amikor a globális internet-infrastruktúra egyetlen rosszul konfigurált router miatt szinte percek alatt megbénulhat...

szombat 10:18

Az orosz VPN-vadászat új fokozatba kapcsol: kemény év jön

Oroszország intenzíven törekszik arra, hogy lezárja az internetét a külvilág elől...