2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 20:23

Az ötmillió elveszett bitcoin zárolása megrázhatja a piacot

💸 A kriptopiac egyik legforróbb dilemmája azzal a javaslattal váltott ki vitát, hogy több mint ötmillió, évek óta mozdulatlan bitcoin sorsát átírják: egyesek szerint csak így védhetők meg a jövőbeli kvantumszámítógépes támadásokkal szemben, mások viszont áthághatatlan elvi tilalomnak tartják minden ilyen beavatkozást...

MA 20:12

A predikciós piacok valódi ereje: nem a tömeg számít

📊 Egészen máshogy működnek a predikciós piacok, mint azt a legtöbben gondolnák...

MA 20:01

Az őrült középkor: scriptorium, ahol a majomfarokból művészet lesz

Érdemes megvizsgálni, milyen őrült világot kínál a Scriptorium: itt mindenből bármi lehet, és a középkori illusztrációk határát csak a képzelet szabja...

MA 19:56

A kriptomilliárdos álom Európában: keményen figyelmeztet a Bybit-vezér

💸 Érdemes megvizsgálni, hogy az európai kriptovaluta-piac szabályozása mennyire elégséges a nyereségességhez...

MA 19:45

Az Imagine Dragons énekesének lövöldéje hétvégenként ingyenes

A Last Flag című új, többjátékos lövöldözős játék, amelyet az Imagine Dragons énekese, Dan Reynolds stúdiója, a Night Street fejlesztett, júniusban debütált a Steamen...

MA 19:34

A mezcalos üveg alján lapuló „féreg” valódi titka

🧙 Évtizedek óta uralkodik a rejtély az alkoholos italok egyik kultikus különlegessége körül: a mezcalüvegek alján heverő, halvány és összegömbölyödött „féreg” mára szinte összenőtt a mexikói ital misztikumával...

MA 19:23

Az igazi fenevad visszatér: Riddick visszavág

Érdemes megvizsgálni, hogy egy játék, amely a 2000-es évek közepén alaposan átírta a konzolos FPS-ek szabálykönyvét, több mint egy évtizeddel később is képes-e ugyanazt a sötét, vad mámort előidézni...

MA 19:12

Az újabb DeFi-botrány után vége a decentralizált pénzforradalomnak?

Minden korábbinál nagyobb támadás érte a decentralizált pénzügyi rendszereket, amikor a KelpDAO-t hatalmas, 105 milliárd forintos (292 millió dolláros) kihasználás rázta meg, és emiatt a befektetők hirtelen 4600 milliárd forintot (13 milliárd dollárt) vontak ki a teljes ágazatból...

MA 19:02

A palackpostára rábukkanni: van rá esélyed?

🚤 Egy ausztrál tengerparton nemrég előkerült egy százéves palack, benne egy első világháborús katona üzenetével, aki saját állítása szerint boldogabb volt, mint valaha...

MA 18:56

A néma MI-hibák: minden zöld, mégis minden rossz

A vállalati MI-rendszerek legdrágább hibái gyakran nem járnak látványos leállásokkal. Nincs pirosba forduló műszerfal, sem riasztás: a rendszer látszólag hibátlanul működik, de következetesen és magabiztosan rossz eredményeket ad...

MA 18:45

A bitcoinbálnák bevásárolnak, a shortosok pedig megfizetik az árát

Február óta egyre több, több mint 3,5 milliárd forintos pozíciókkal rendelkező nagy szereplő nyit agresszívan vételi (long) pozíciókat a Hyperliquid tőzsdén, ahogy a bitcoin árfolyama 21–22 millió forintról közel 28 millió forintra ugrott...

MA 18:34

Az automatizálás Mekkája: végre elkészült a Shapez 2

Fontos kérdés, hogy hogyan lehet egy gyárépítős játékot mindig izgalmassá és frissé tenni...

MA 18:22

A panamai óceáni mentőöv eltűnt – negyven év óta először

A Panamai-öbölben évtizedeken át minden száraz évszakban (december és április között) erős északi passzátszelek indították be a feláramlást, amely hideg, tápanyagokban gazdag vizet hozott fel a mélyből...

MA 16:56

A saját Wikipédiád: építsd meg MediaWikivel már ma

A tudás megosztása sosem volt ilyen egyszerű: a wiki-rendszerek segítenek szervezeteknek, közösségeknek és egyéni kutatóknak létrehozni könnyen, közösen szerkeszthető tudástárakat...

MA 16:45

A nagy DJI drónpárbaj: melyik most a legjobb vétel?

A DJI friss, 249 gramm alatti újdonsággal rukkolt elő a Lito 1 személyében, amely nagyobb szenzort, hosszabb repülési időt és fejlettebb akadályérzékelést kínál...

MA 16:34

A világegyetem egyik legnagyobb rejtett óriása leleplezve

Szinte teljesen láthatatlan volt a Földről eddig az a gigantikus galaxishalmaz, amelyet végre részletesen sikerült feltérképezniük a csillagászoknak...

MA 16:23

Az emberiség afrikai eredete: több ős, nem egyetlen

🚩 Érdekes felvetés, hogy az emberi faj eredetére vonatkozó, eddig széles körben elfogadott elképzelések valószínűleg túl egyszerűek voltak...

MA 16:12

Az első Bloodlines 2 DLC végre helyreteszi a harcrendszert

🔴 A várva várt Vampire: The Masquerade – Bloodlines 2 tavalyi megjelenése után sokan érezhették úgy, hogy valami hiányzik a játékból...

MA 16:01

Az Oppo Find X9 Ultra tarol: 2000 fotón át bizonyított

Az okostelefonos fotózás új szintre lépett az Oppo Find X9 Ultrával...

MA 15:56

Az MI forradalmasítja az állami megfigyelést – riadót fújnak a képviselők

A technológia fejlődése alapjaiban változtatja meg, hogyan figyeli meg az állam polgárait...

MA 15:34

A Hubble 30 év után újra célba veszi a Trifid-ködöt

🛰 Ötvenezer fényévnyi távolságból ismét elképesztő fotót készített a Hubble űrtávcső a Trifid-ködről, amely a Nyilas csillagképben található, és a csillagkeletkezés egyik ikonikus helyszíne az univerzumban...

MA 15:23

A mindent tudó kriptobróker: a Coinbase újraosztja a lapokat

A Coinbase egy olyan mérföldkőhöz érkezett, amelyet a Wall Street is azonnal felismer: mostantól teljes körű prime brókerként működik a kriptopiacon...

MA 15:12

Az LG C6 OLED: Lélegzetelállító fényerő, de akadnak árnyoldalak

Az LG C-sorozatos OLED tévéi évről évre a kategória legnépszerűbbjei közé tartoznak...

MA 15:01

A nagy rejtély: miért rázza a fejét a macska és a kutya?

A macskáknál gyakran előfordul, hogy evés, ivás vagy alapos simogatás után villámgyorsan megrázzák a fejüket...

MA 14:57

A gigászi adatközpont rekordszintű áraméhséggel fenyeget Utahban

Különleges beruházás készül Box Elder megyében, ahol Kevin O’Leary, a híres „Mr...

MA 14:45

Az Enter the Gungeon tízéves: Tényleg véget ér a roguelike aranykora?

Tíz év telt el azóta, hogy megjelent az Enter the Gungeon, amely több mint 14 millió példányban kelt el, és jelentős hatást gyakorolt a modern akció-roguelike műfajra...

MA 14:34

Az FA-kupa elődöntő: megingott a Chelsea, éhes a Leeds

⚽ Nem a bajnoki tabella alapján ítélhető meg, melyik csapat az esélyesebb a Chelsea–Leeds FA-kupa-elődöntőben...

MA 14:23

A T. rex megőrződött vérerei átírják a dinoszaurusz-kutatást

A tudósok hosszú évtizedeken át próbáltak dinoszaurusz-DNS-t találni, eredménytelenül. Ma már a paleontológia főleg a fosszíliákban maradt eredeti szerves anyagok nyomait kutatja, de a több mint 66 millió év során a DNS teljesen elpusztult...

MA 13:56

Tűz az amerikai bombázók brit bázisán – csak egy üres épület égett

Hajnalban hatalmas tűz ütött ki a Gloucestershire melletti RAF Fairford katonai repülőtéren, ahol jelenleg is amerikai egységek állomásoznak...