Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 16:17

A Time az MI-építészeket választotta az Év Embereinek

A Time magazin idei címlapján az MI korszakának kulcsszereplői, az úgynevezett MI-építészek szerepelnek, akik sorsfordító módon formálják át a világot...

MA 16:02

Az AMD Redstone-frissítés miért dühítette fel a PC-s játékosokat?

💢 A héten végre megérkezett az AMD régóta várt Redstone frissítése, amely négy különböző technológiát kínál, de láthatóan sok PC-s játékos fejében okozott zavart...

MA 15:49

Az új mini SSD megváltás – vagy újabb zsákutca?

📥 A Biwin új Mini SSD formátuma most először vált elérhetővé a nagyközönség számára a rendkívül kicsi CL100 NVMe-kártyával...

MA 15:17

A brutális pénzpiaci kamatoknak hamarosan végük?

Az amerikai jegybank 2024-ben háromszor, majd 2025-ben ismét háromszor csökkentette a kamatot, így a betéti kamatok – köztük a pénzpiaci számlák (MMA) kamatai is – csökkenni kezdtek...

MA 15:02

A nagy lakáshitel-fordulat: így profitálhatsz a zuhanó kamatokból

🏡 December közepén tovább csökkennek az ingatlanfedezetű hitelkeretek (HELOC) kamatai, a bankok pedig sorra alakítják át ajánlataikat az új, 6,75%-os prime rate-hez igazítva...

MA 14:49

A megtakarítások új sztárja: most itt a legmagasabb kamat

December közepére tovább csökkentek a megtakarítási kamatok, azonban még mindig lehet igazán kedvező ajánlatokat találni...

MA 14:33

Az elektromos családi kisbusz, amiben tényleg álomra hajthatod a fejed

Citroën új koncepcióautója képes hat embert elvinni – mindezt egy olyan kis méretű karosszériával, amely alig nagyobb egy Mininél...

MA 14:18

A teknősök páncélja: Valójában mire jó?

🐢 A legtöbb ember azt hiszi, hogy a teknős páncélja kizárólag védekezésre alakult ki, hiszen elég, ha a kis páncélos állat egyszerűen behúzza a fejét, és már védve is van a ragadozók elől...

MA 12:50

Az új James Bond fiatal, nyers – és még keresi önmagát

Ki gondolta volna, hogy egyszer egy 26 éves, tapasztalatlan James Bond veszi át a stafétabotot, miközben a klasszikus figurát teljesen újragondolják?..

MA 12:33

Az űr mélyén hét órán át tombolt a rejtélyes robbanás

💥 A csillagászokat megdöbbentette egy soha nem látott esemény: egy különösen hosszú, hétórás gamma-kitörés érkezett hozzánk 8 milliárd fényév távolságból, a Pajzs (Scutum) csillagkép irányából...

MA 12:20

Az év legjobb Chromebookjai 2025-ben: árak, teljesítmény, titkos favoritok

💻 Felmerül a kérdés, melyik Chromebook lehet a legjobb választás idén azoknak, akik egyszerű, gyors és pénztárcabarát laptopot keresnek...

MA 10:46

A heavy metal gyógyítja a tinik lelkét a Blackfeet rezervátumban

🎸 Felmerül a kérdés, mit keres a heavy metal egy indián rezervátumban, ahol a fiatalokat a sötétség gyakran szó szerint fenyegeti...

MA 10:29

Az ETF-láz forrpontra jut: a Goldman Sachs mindent egy lapra tesz

🔥 A Goldman Sachs Asset Management nagy tétet tett azokra a tőzsdén kereskedett alapokra (ETF-ekre), amelyek opciók használatával védelmet nyújtanak a piaci veszteségek ellen...

MA 10:23

A fiú, aki visszatért az ősoroszlán karmaiból

🐯 Egyedülálló régészeti lelet borzolta fel a tudósok kedélyét Bulgáriában: nagyjából 6 200 évvel ezelőtt egy tinédzsert támadott meg egy oroszlán, és bár az áldozat súlyosan megsérült, valahogy mégis túlélte a támadást – legalábbis egy darabig...

MA 10:16

Az Affinity ingyen lett: a Canva felforgatja a dizájnvilágot

🚀 Októberben a Canva World Tour rendezvényen bejelentették: a megújult, professzionális Affinity mostantól teljesen ingyenes...

MA 09:52

Az első robotséf, amely tényleg leveszi rólad a főzés terhét

🥣 Amíg dolgozom, odalent a konyhában a Posha robotséf épp krémes makarónit készít sajttal és fokhagymával...

MA 09:36

Az új Alien-játék letarolhatja a piacot

Az Alien-filmek rajongói újabb okot kaptak az örömre: egy vadonatúj, AAA-kategóriájú Alien-játék készül, amely 2028-ban jelenhet meg minden főbb platformra...

MA 09:30

A MI-robbanás egyik nagy nyertese lehet a Vanguard Utilities ETF

Az elmúlt két évtizedben az Egyesült Államok áramfogyasztása alig növekedett, köszönhetően az energiatakarékos technológiáknak, mint a LED-izzók és a modern háztartási gépek...

MA 09:22

Jön az igazi Half-Life 3? Tavaszi premier, Steam Machine-pletykák

🚀 A Half-Life univerzum rajongói most újabb reménysugárba kapaszkodhatnak: iparági bennfentesek szerint a Half-Life 3 nemcsak valóban készül, hanem 2026 tavaszán a Valve új Steam Machine konzoljának premierjével együtt is megjelenhet...