2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 21:34

A Pixel 9a végre megkapta, ami eddig hiányzott?

👌 Most kapaszkodj meg, mert a Pixel 9a-val kapcsolatban végre jó hír érkezett: egyeseknél már megjelent a kikapcsolt képernyő mellett is működő ujjlenyomatos feloldás opciója...

MA 21:12

Az új Google TV: a Gemini azt is megmutatja, amit nem kérsz

Vadonatúj MI-alapú funkciókkal bővült a Google TV, így a tévénézés mostantól egészen új értelmet nyer...

MA 21:02

A kockázatkerülők új aranytojása: a stakelt ether

💸 Ahogy a kriptovaluták egyre inkább belépnek a hagyományos pénzpiacokra, a nagy pénzügyi cégek is igyekeznek valamilyen módon jelen lenni ebben a világban...

MA 20:56

Az üvegbe gravírozott chip áttöri a kvantumbiztonság korlátait

Amikor a kvantumszámítógépek egyre közelebb kerülnek a valósághoz, a jelenlegi titkosítási módszerek hamarosan elavulhatnak...

MA 20:23

Az új HeyPolo végre leszámol az állandó megfigyeléssel

Érdemes megvizsgálni, hogyan védhető a digitális magánélet a helymegosztó alkalmazások hasznossága mellett...

MA 20:13

A Mars ősi vulkánja felborítja a bolygó forgását

Noha a Marsot általában kihűlt, halott világnak tartottuk, új bizonyítékok szerint a Tharsis nevű vulkánvidék mélyén komoly aktivitás zajlik, amely a bolygó forgását is felgyorsíthatja...

MA 20:02

Az új Spotify‑védelem végre gátat szab a téves lejátszásoknak

A zenei platform elindította az Artist Profile Protection nevű opciót, amellyel a zenészek megelőzhetik, hogy véletlenül vagy szándékosan rossz profilokra kerüljenek fel a zenéik...

MA 19:58

Az Apple Music most már jelzi: jönnek a koncertdátumok a Bandsintownból

Na most kapaszkodj, mert a Bandsintown végre teljes erőbedobással összeborult az Apple-lel: mostantól már az Apple Musicban is böngészheted kedvenc előadóid közelgő koncertjeit...

MA 19:46

Az AmneziaVPN visszavág: átveri a cenzúrát, felszabadítja a netet

Az internetes szólásszabadság ma egyre komolyabb veszélyben van. Számos ország kormányai mindent elkövetnek azért, hogy megakadályozzák lakosaikat az internet szabad használatában: nemcsak egyes oldalakat, hanem alapvetően magát a világhálót próbálják elérhetetlenné tenni...

MA 19:34

A Firefox végre ingyenes, beépített VPN-t kapott

🔒 A Firefox legújabb, 149-es verziója egy teljesen új szintre emeli a böngészés biztonságát: a beépített, ingyenes VPN-funkcióval immár havi 50 GB adatforgalmat kap minden Mozilla-fiókkal rendelkező felhasználó...

MA 18:02

Az első Google MI-s vásárlás: a Gap forradalmi lépése

A Gap Inc., amelyhez olyan divatmárkák tartoznak, mint az Old Navy, a Gap, a Banana Republic és az Athleta, lehetővé teszi, hogy a vásárlók közvetlenül a Google Gemini alkalmazásán keresztül fejezzék be vásárlásaikat – anélkül, hogy elhagynák a platformot...

MA 17:56

Az Infinite Campust újra támadás érte: rejtélyes adatlopás

Az Egyesült Államokban több mint 3200 iskolai körzetben használt Infinite Campus digitális diáknyilvántartó rendszert adatlopás érte, miután hackerek egy alkalmazott Salesforce-fiókjához fértek hozzá...

MA 17:45

Az új szuperkondenzátorok letaszítják trónjáról az akkukat?

Valami elképesztő született a laborban: szuperkondenzátor, amelyben a legújabb trükk a lignin-alapú, szuperporózus szén elektróda, amit egy teljesen új, fluorozott oldószeres elektrolittal turbóztak fel...

MA 17:34

Az MI, amely valóban helyetted dolgozik: a Claude önállósodik Macen

Képzeld el, hogy miközben épp a koktélodat kortyolod, vagy a Netflixen lazulsz, a gépeden egy MI dolgozik tovább – és ez most már nem csak sci-fi, hanem valóság...

MA 17:24

Az iráni csapások térdre kényszerítették Katar gázexportját

A katari Ras Laffan Ipari Városban található folyékonyföldgáz-üzem, amely korábban a világ egyik legnagyobb LNG-előállító központja volt, teljesen leállította termelését az iráni légicsapások nyomán...

MA 17:12

A Spotify már mindent tud a kedvenc dalaidról: itt a SongDNA

🎵 Na most kapaszkodj, mert a Spotify új zsenialitással robbant be: itt a SongDNA, amivel szinte szétboncolhatod bármelyik kedvenc számodat!..

MA 17:03

Az autóhitel-válság tetőzik: sokkolóan elszálltak a havi terhek

Egyre több amerikai szembesül azzal, hogy az autóvásárlás már messze nem álom, hanem komoly anyagi teher...

MA 16:56

Az Apple-vezér is azt mondja: tedd le végre a telefont!

📱 Az iPhone valósággal forradalmasította az életünket, de igen, könyörgöm, néha már tényleg túl sok a telefonozás...

MA 16:46

Az Amazon rákapcsol: jön a Zoox robotaxi-invázió

Az Amazon önvezető járműveket fejlesztő leányvállalata, a Zoox, még idén elindítja robotaxi-szolgáltatását Austinban és Miamiban...

MA 16:34

Az óriáscsillagok nagy rejtélye: fél évszázad után megszületett a megoldás

🔬 Évtizedek óta nagy fejtörést okozott a kutatóknak, hogy a vörös óriáscsillagok felszínén miként jelennek meg olyan kémiai változások, amelyek eredetileg mélyen, a csillag belsejében keletkeztek...

MA 14:01

Az újabb LaGuardia-tragédia: végzetes hibák a reptéren

Vasárnap éjszaka az Air Canada Montrealból érkező gépe tragikus módon összeütközött egy tűzoltóautóval a New York-i LaGuardia repülőtér kifutópályáján...

MA 13:56

A közösségi platformok rémálma: feltörték a BuddyBoss-t!

Valaki betört a BuddyBoss frissítési rendszerébe, és szó szerint tömegével fertőzött meg WordPress-oldalakat, amelyekre közösségi platformokat, tagsági oldalakat vagy e-learning-felületeket húztak...

MA 13:45

Az adóhivatal rendszerét is feltörték: megrendült a holland pénzügy

🔐 A holland pénzügyminisztériumot múlt héten kibertámadás érte, amelynek során illetéktelenek hozzáfértek a minisztérium néhány fontos informatikai rendszeréhez...

MA 13:34

Az aszály titkos ára: elszabadulnak az antibiotikum-rezisztens kórokozók

💧 A klímaváltozás nemcsak erdőtüzeket és elszáradó termést okoz hanem a látványos hatásokon túl a mikroszkopikus világra is komolyan kihat...

MA 12:01

Az Apple visszahozza a WWDC-t: jönnek a nagy bejelentések

💻 Megemlíthető, hogy az Apple idén június 8–12. között rendezi meg éves Worldwide Developers Conference (WWDC) rendezvényét, amely immár online formában hozza össze a világ fejlesztőit egy hétre...

MA 11:45

Az iPhone-ok új réme: már bárki feltörheti a telefonodat

🔒 Egy frissen kiszivárgott szoftvercsomag most minden régebbi iPhone-t veszélybe sodor. A DarkSword nevű, iPhone-okat célzó exploit egyetlen letöltéssel beszerezhető a GitHubon, használatához pedig semmiféle különleges tudás nem kell – néhány kattintással a támadók teljes hozzáférést szerezhetnek a személyes adataidhoz...

MA 11:35

Az anyag legújabb csavarja: megszületett a fél-Möbiuszos molekula

Most először sikerült a vegyészeknek olyan, eddig ismeretlen szerkezetű molekulát létrehozni, amely fél-Möbiusz-topológiával rendelkezik...

MA 11:23

Az inzulintabletta átírhatja a cukorbetegség kezelésének szabályait

Az inzulintabletta ötlete több mint száz éve foglalkoztatja a tudósokat, de eddig mindig kudarcba fulladt: a bélrendszer lebontotta az inzulint, mielőtt eljutott volna a vérbe, így millióknak maradt a napi injekció...

MA 11:12

Az első érintős játékkonzol? A OnePlus nagy dobása

🕹 A mobilos játékosok világa hamarosan izgalmas újdonsággal bővülhet, mivel egy nagy gyártó, minden jel szerint a OnePlus, saját Android-alapú kézikonzol fejlesztésén dolgozik...