2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 20:37

A COVID és a H1N1 két hét alatt söpört végig Amerikán

🦠 Egy új kutatás megdöbbentő sebességet tárt fel, amivel a H1N1 és a COVID-19 elterjedt az amerikai városokban...

MA 20:01

A NASA február 11-én indítja útnak a Crew-12 legénységét a Nemzetközi Űrállomásra

🚀 A Crew-12 űrhajósai február 11-én indulnak a Nemzetközi Űrállomásra, csatlakozva a fedélzeten maradt három űrutazóhoz, miután az előző missziót egészségügyi okokból lerövidítették...

MA 19:55

A BridgePay elleni zsarolóvírus-támadás országos fizetési káoszt okozott

Az egyik legnagyobb amerikai fizetésiátjáró-szolgáltató, a BridgePay ransomware-támadás áldozata lett, ami kulcsfontosságú rendszereit tette elérhetetlenné, és országos kiesést okozott...

MA 19:37

A Bitcoin 70 000 dollár alá zuhant a piaci pánik közepette

💸 A Bitcoin 60 000 dollár közeléből körülbelül 69 000 dollárra tért magához, miután gyakorlatilag visszaadta azokat a nyereségeket, amelyeket Donald Trump 2024...

MA 19:19

Az új AirTag, a Nex Playground és az MSI Prestige: a hét legizgalmasabb tesztjei

🏷️ Ebből következően érdemes megérteni, hogy február kellős közepén jócskán volt dolga az Engadget tesztelőinek...

MA 19:02

Harcosi felszereléssel temettek el angolszász gyerekeket Nagy-Britanniában

Régészek angolszász gyerekeket fedeztek fel, akiket lándzsával, pajzzsal és csatokkal temettek el – olyan felszereléssel, amely általában harcosok sírjaiban található...

MA 18:56

A telefotoextenderek az Android világ legizgalmasabb újítása

📱 Korábban minden kirándulásomra magammal vittem a megbízható Nikon DSLR fényképezőgépemet. Felejthetetlenül szép pillanatokat örökítettem meg a kit objektívvel és a 70-300 mm-es zoomobjektívvel, de mindig sajnáltam, hogy az utóbbi mennyire sok helyet foglal...

MA 18:37

A Samsung rejtett hangfunkciója, aminek minden telefonban ott kellene lennie

A modern Samsung telefonok rengeteg funkcióval vannak tele, több mint bármely más Android márka...

MA 18:18

Az új AirTag megment, ha örökké elveszíted a kulcsod

🔑 Az ADHD-val küzdők álma a második generációs AirTag. A hangosabb sípolás és a megnövelt hatótáv életmentő lehet azoknak, akik soha nem emlékeznek, hová tették a kulcsukat...

MA 17:38

A QNAP TS-h1290FX 25 gigabites szörnyet szabadít el 12 SSD-vel

Tavaly év végén bemutattuk, hogyan építettük stúdiónkat a QNAP TS-h1290FX köré...

MA 16:56

A technológiai óriások idén 217 billió forintot önthetnek mesterséges intelligenciába

🤖 A Google, az Amazon, a Microsoft és a Meta együttesen közel 217 billió forintot (700 milliárd dollárt) szánhat idén mesterségesintelligencia-fejlesztésekre...

MA 16:37

A Super Bowl rejtett veszélye: szívrohamot kaphatunk a kanapén

A nagy sporteseményekhez, mint a Super Bowl, rejtett egészségügyi kockázatok társulnak...

MA 16:21

Ezért törlik tömegesen a fiatalok a közösségi médiát – és mit csinálnak helyette

📱 A 23 éves Matt Richards ügyfélmenedzser tavaly törölte az összes közösségimédia-alkalmazást a telefonjáról, és meglepődött, amikor felfedezte, hogy az élete jobbra fordult...

MA 16:01

Gyógyítja a skizofréniát a ketogén diéta? RFK Jr. meglepő kijelentése hullámokat vert

🧠 Megvizsgálandó, hogy Robert F. Kennedy Jr., az amerikai egészségügyi és humánszolgáltatási miniszter állítása, miszerint a magas zsírtartalmú, alacsony szénhidráttartalmú étrend meggyógyíthat bizonyos pszichiátriai betegségeket, mennyire tartható...

MA 15:57

A szivacs vagy a fésűsmedúza volt az első állat? A vita nem csitul

Csaknem két évtizede dúl a vita a tudósok körében: a szivacsok vagy a fésűsmedúzák jelentették-e az első állati vonalat...

MA 15:01

A térdei árulták el: ennyi volt Lindsey Vonn számára az elit síelés ára

A 41 éves olimpiai aranyérmes síelő, Lindsey Vonn valóságos fiziológiai csoda...

MA 14:56

A napelem- és szélenergia-forradalom, amit már semmi sem állíthat meg

⚡ 2025-ben a napelem és a szélenergia először múlta felül a szenet mint globális energiaforrást...

MA 14:37

A Webb-űrteleszkóp megtalálta a valaha látott legnagyobb sötétanyag-struktúrát

A James Webb Űrteleszkóp segítségével a csillagászok feltérképezték az univerzum sötét anyagának eddigi legnagyobb szakaszát, elmélyítve ezzel a titokzatos anyag kozmikus tájat formáló szerepének megértését...

MA 14:19

Miért volt ennyire vacak a PlayStation 3D-s grafikája?

🎮 Bár gyakran egybemossuk a retro játékkonzolokat, az első 3D-s grafikai rendszerek, mint a Nintendo 64 és a Sony PlayStation, vizuálisan markánsan különböztek egymástól...

MA 14:03

A tartalomgyártók új kedvence: DJI Power 1000 V2

A korábban csak drónjairól ismert DJI mára sokkal több lett, mint egy dróngyártó...

MA 13:55

Az ősi ráncos mintázatok felkavarják az élet eredetéről alkotott képet

Lenyűgöző, több mint 180 millió éves ősi nyomokat fedeztek fel Marokkó Közép-Atlasz-hegységében, amelyek új fejezetet nyithatnak az élet eredetének kutatásában...

MA 13:19

A mesterséges intelligenciás hollywoodi filmek egymás után elhasalnak

Az utóbbi években Hollywood mindent feltett az MI-re, de látványosan pórul járt...

MA 13:02

Az a powerbank, amit nem dobsz félre: Sharge 3 az 1-ben teszt

A mindennapok egyre elengedhetetlenebb eszköze az okos, multifunkciós töltő, amely nem csupán energiával lát el, de még jól is néz ki...

MA 12:57

A féktelen MI ára: ügyvédi bakik, bírói ultimátum

Egy New York-i szövetségi bíró példátlan döntést hozott: egy ügyvéd ismételt MI-visszaélése miatt megszüntette a teljes pert...

MA 12:20

Az iPhone Fold közeleg: ezt tudjuk a hajlítható csúcsmobilról

Kérdés, mikor és milyen formában lép be az Apple a hajlítható okostelefonok világába – hiszen míg a Samsung és a Google már évekkel ezelőtt piacra dobták saját hajlítható mobiljaikat, az Apple eddig feltűnően kimaradt ebből a kategóriából...

MA 12:01

A Waymo önvezető taxijai nem állnak meg az iskolabuszok elött

Waymo önvezető taxijai komoly problémákkal küzdenek Austinban, mert rendszeresen nem állnak meg az iskolabuszoknál, amikor éppen gyerekek szállnak le vagy fel...

MA 11:55

Az európai Disney+-ról eltűnt a Dolby Vision

A Disney+ előfizetők több európai országban egy ideje hiába keresik a Dolby Vision HDR-tartalmakat, ezek ugyanis eltűntek a platformról...

MA 11:38

Az új fogyasztószerek minden eddiginél veszélyesebbek

⚠ Egyre erősebb súlycsökkentő gyógyszerek jelennek meg, amelyek a korábbi sikereket messze felülmúlhatják...

MA 11:02

Az OpenAI-nál forr a levegő: káosz, vádak, adatbotrány

Fontos kérdés, hogy miként tudja az OpenAI vezetősége kezelni az egyre erősödő kritikákat, amelyek a vállalat növekedésével párhuzamosan szaporodnak...