2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 21:56

Az X szigorít: zárolás vár az első kriptós posztolókra

Elon Musk közösségi oldala, az X újabb lépést tesz a kriptós átverések visszaszorítására...

MA 21:46

A netes tévézés trónjáért: YouTube TV vagy Hulu + Live TV?

A kábeltévéről való lemondás sosem volt egyszerűbb, mint ma, a YouTube TV és a Hulu Plus Live TV kínálatával...

MA 21:34

A Google Vids megérkezett: ingyenes videók egy kattintással

A minőségi videók készítése korábban bonyolult technikát, költséges felszerelést és órákig tartó utómunkát igényelt...

MA 21:23

Az Android lehagyja az iOS-t az értesítések kezelésében

Az Android eddig is sokkal hatékonyabban kezelte az értesítéseket, mint az iOS, ami nemcsak az alkalmazások újításaiban, hanem a testreszabási lehetőségekben is megmutatkozik...

MA 21:11

A linuxos Steam átlépte az 5%-ot – Végre indul a játék?

Márciusban hatalmasat ugrott a linuxos játékosok aránya a Steamen: végre sikerült átlépni az eddig soha el nem ért 5%-os küszöböt...

MA 20:56

Az energiaforradalom küszöbén: Leállíthatjuk a fosszilis korszakot?

A globális villamosenergia-rendszer nagy fordulóponthoz érkezett: 2025 végére a megújuló energiaforrások a teljes elektromos kapacitás közel felét adták világszerte, elsősorban a napenergia robbanásszerű növekedésének köszönhetően...

MA 20:45

Az új Gemma 4: MI mindenkinek a zsebében

📱 A Gemma 4 család bevezetésével a Google új szintre emeli a nyílt forráskódú nagy nyelvi modellek világát...

MA 20:35

A japán módszer, amellyel évekkel tovább élhetsz

A hara hachi bu japán szokás, amely azt tanítja, hogy érdemes abbahagyni az evést, amikor már nagyjából 80%-ig jóllaktunk...

MA 20:23

Az Alexa Plus mostantól ételt rendel helyetted – de nem mindegy, mivel

Beszédes asszisztens, gyors rendelés Az új Alexa Plus már képes az Uber Eats és a Grubhub felületein keresztül ételt rendelni, ehhez azonban a megfelelő eszközre lesz szükséged...

MA 20:12

Az Artemis II lenyűgöz: élő 4K-közvetítés a Holdról

Az Artemis II misszió elindult, és forradalmasítja azt, ahogyan a Holdról képeket látunk majd...

MA 20:01

Az orvostechnológiai óriás Stryker talpra állt a pusztító kibertámadás után

A világ egyik legnagyobb orvostechnológiai cége, a Stryker Corporation, három héttel egy jelentős kibertámadás után ismét teljes kapacitással működik...

MA 19:34

Az új PlayStation 6: búcsú a lemeztől, jön a tisztán digitális korszak

Pár év múlva jön a PlayStation 6, és úgy tűnik, hogy a fizikai gyűjtők most fognak igazán kiborulni...

MA 19:23

Az Artemis II elstartolt: visszatér az emberiség a Holdra

🚀 Több évtized után újra emberek tartanak a Hold felé: a NASA Artemis II rakétája sikeresen elindult Floridából, a Kennedy Űrközpontból...

MA 19:01

Az újabb Netflix-áremelés: vétel vagy eladás a tőzsdén?

💸 A Netflix kevesebb mint két éven belül ismét emeli előfizetési díjait, minden csomag ára 360–720 forinttal nő...

MA 18:56

Az asztali módok párharca: ki áll az élen?

Az okostelefonok régóta ígérik, hogy kiválthatják a számítógépet, de sokan még mindig ragaszkodnak a teljes értékű PC-khez munka közben is...

MA 18:47

Az MI-siker kulcsa: káoszban is megéri előremenekülni?

⚡ Az MI fejlődése elképesztő tempót diktál, de valójában még senki sem tudja pontosan, mikor és hogyan fordítja majd fel a munka világát, a termelékenységet vagy az üzleti versenyt...

MA 18:35

Az első szerencsejáték nyomai: 12 ezer éves dobókockák Amerikában

🎲 Évezredekkel az ismert óvilági szerencsejátékok előtt az észak-amerikai őslakosok már csontból készült különleges dobókockákkal játszottak...

MA 18:23

A legszínesebb telihold és NASA-s űrkaland: jössz a partira?

Április elseje most tényleg nagy dobás: nemcsak hogy indul a tavasz, meg persze az áprilisi tréfák, de ma este felbukkan a tavasz első, úgynevezett Rózsaszín Holdja (Pink Moon) – mégpedig egészen különleges időpontban...

MA 17:34

A Samsung tévéd már tudja a Google Castot – ingyen!

📺 Végre elköszönhetsz a Samsung-féle okos vargabetűktől! Mostantól a Samsung tévéd önállóan képes együttműködni a Google Casttal, így nem kell többé kerülgetned a Smart View trükközéseit...

MA 17:25

A kriptód biztonsága: a leggyorsabb út a nyugalomhoz

🔒 A kriptopénzek világában a legtöbben már hallottak rémtörténeteket elvesztett tokenekről, feltört számlákról vagy egyenesen teljes tőzsdék összeomlásáról...

MA 17:12

Az Outlook bakijai: amikor félúton ragad az e-mail

A klasszikus Outlook‑felhasználók mostanában igencsak ráfaragnak, ha levelezni akarnak: egyre többeknél akad el a küldés, főleg, ha az Outlook...

MA 17:01

Az első európai blokklánc-IPO: Franciaország ugrik fejest a mélyvízbe

🌍 Megemlíthető, hogy Franciaországban elindulhat Európa első olyan tőzsdei bevezetése, amelynek minden tranzakciója blokkláncon zajlik...

MA 16:57

Az emberi gondolkodás áll az MI-forradalom útjában?

🤔 Többek között az utóbbi évek mesterséges intelligencia (MI) hullámai mögött álló nagy nyelvi modellek (LLM-ek) néhány ponton messze elmaradnak az emberi logikai gondolkodás szintjétől...

MA 16:34

A Google AI Pro csomag: brutális tárhelydömping, tele extrákkal

A Google AI Pro, vagyis a havi 20 000 forintos előfizetés végre combos, 5 TB tárhelyet ad az eddigi 2 TB helyett, mégpedig mindenféle felár nélkül...

MA 16:23

Az új Cisco-sebezhetőség tárt kaput nyithat a támadóknak

Jellemző példa erre, hogy a Cisco több súlyos és kritikus hibát javított, köztük egy Integrated Management Controller (IMC) hitelesítés-megkerülési hibát, amellyel támadók adminisztrátori jogokat szerezhetnek...

MA 16:01

A KitchenAid új robotgépe a sütést végre gyerekjátékká teszi

🍰 A KitchenAid ismét meglepte a sütés szerelmeseit: bemutatkozott az Artisan Plus, a legendás tálas mixer frissített, még okosabb változata...

MA 15:57

Az F5 BIG‑IP rendszereket sorra veszik célba a támadók

Különösen igaz ez akkor, ha a vállalatok elhanyagolják a rendszeres frissítéseket: jelenleg több mint 14 000 F5 BIG-IP Access Policy Manager példány van közvetlenül kitéve kritikus távoli kódfuttatási (RCE) sebezhetőségnek az interneten...

MA 15:46

Az elektromos trónkövetelők a 2026-os New York Auto Show-n

Az idei New York Auto Show igazi csemegéket hozott az elektromos autók rajongóinak...

MA 15:34

Elrajtolt az Artemis II: 54 év után újra a Hold felé

🚀 Április 1-jén, a floridai Kennedy Űrközpontból indult útnak az Artemis II, az első emberes holdküldetés több mint fél évszázad után...