2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 17:31

A Midjourney visszavág: a bíróságon valljanak MI-használatukról a stúdiók

🛠 A Midjourney szembeszállt a nagy hollywoodi stúdiókkal, miután azok tavaly beperelték szerzői jogsértés miatt, mert az MI-alapú képalkotó rendszer képes Supermanről, Batmanről és más híres karakterekről képeket generálni...

MA 17:01

A Webb-űrtávcső felforgatja a világegyetemről alkotott képünket

Ha a kozmikus rejtélyek foglalkoztatnak, érdemes a James Webb-űrtávcső (JWST) képeire vetni egy pillantást...

MA 16:31

Az ARToken PhaaS leleplezi az EvilTokens Microsoft 365 adathalász eszköztárát

Érdekes jelenség, hogy az elmúlt időszakban egyre kifinomultabb adathalász szolgáltatások jelentek meg, amelyek célkeresztjében a vállalati felhasználók állnak...

MA 16:01

Az új brit kriptószabályok fellendítenék a kereskedelmet, de jönnek a buktatók

💸 Érdekes felvetés, hogy az Egyesült Királyság új kriptovaluta-szabályozása globális kereskedelmi lehetőségeket nyithat meg, miközben komoly kihívásokat is tartogat...

MA 15:30

Az ősi „hobbitok” a komodói varánuszok maradékain lakmároztak

Érdemes megvizsgálni, hogy az indonéziai Flores szigetén egykor élt, Homo floresiensisnek nevezett ősi emberfaj, vagyis a hobbitok, ténylegesen mennyire voltak találékonyak túlélésük során...

MA 15:01

Az Amazon frissített Fire HD 10-je kicsivel több memóriával érkezik

Az Amazon megújította népszerű Fire HD 10 táblagépét, az egyik legfontosabb változás pedig a memória bővítése: az eddigi 3 GB helyett mostantól 4 GB RAM-mal működik az eszköz...

MA 14:31

Az adatbiztonság alapja összedőlt – lehet, hogy nincs rá megoldás

Kezdetben a titkosított számítási rendszerek megoldásai technikai áttörést ígértek az érzékeny adatok védelmében...

MA 11:31

A tűzijáték mellé sarki fény: tucatnyi államban villanhat az ég a hétvégén

🎆 Az Egyesült Államok Függetlenség napja hétvégéjén nemcsak a látványos tűzijátékokban gyönyörködhetnek a lakosok, hanem a szokottnál is élénkebb sarki fény is megjelenhet az éjszakai égbolton...

MA 10:36

A július 4-i hőhullám 1776-ban szinte lehetetlen lett volna

🔥 Július mindig a legmelegebb hónap az Egyesült Államokban, de napjainkban a hőhullámok sokkal intenzívebbek, mint amilyeneket Benjamin Franklin, Thomas Jefferson vagy a többi alapító atya megtapasztalhatott volna...

MA 10:25

Az Endeavour űrsiklót még idén testközelből csodálhatjuk Los Angelesben

🚀 A NASA legendás űrrepülőgépe, az Endeavour hamarosan végleges helyére kerül a Los Angeles-i Kaliforniai Tudományos Központban...

MA 10:01

A Hold végzete: mi vár rá a távoli jövőben?

🔈 Amikor az ember felnéz az égre, a Hold szinte mindig ott van, mégis hajlamosak vagyunk természetes társunkat magától értetődőnek venni...

MA 09:25

A francia hőhullám sokkja: riasztó halálozási adatok

Franciaországot június végén történelmi hőhullám sújtotta, amelynek során a halálozások száma soha nem látott mértékben megugrott...

MA 09:13

Az agy rejtett kulcsa: a munkamemória szüli a tudatot?

💡 Előfordul, hogy valaki átlép egy ajtón, és azonnal elfelejti, miért is ment be a helyiségbe...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 7/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ICD-10 Dictionary (iPhone/iPad)Az alkalmazás segítségével egyszerűen kereshetünk ICD-10 kód, betegség neve vagy akár tünet alapján is...

MA 09:01

Az MI-vezérek egymás közt tárgyalnak, a dolgozók csak pislognak?

Egy hétköznapi munkanap során egy alkalmazott egy zavaros üzenetet kap a főnökétől...

MA 08:24

A Play Áruház gyűjteményeihez hamarosan egyedi widgetek érkeznek

A Google hamarosan egyesével is elérhetővé teszi a különböző gyűjteményeket a widgetek között – így végre mindenki csak azokat a kategóriákat teheti ki, amelyek számára a legfontosabbak...

MA 08:12

A Google Névjegyek érintéses megosztást és frissített Saját adatok lapot kap

📱 Érdemes észrevenni, hogy a Google egyre gördülékenyebb élményt kínál azoknak, akik gyorsan, akadályok nélkül szeretnének adatokat megosztani telefonjukról...

MA 08:02

A NetNut proxyhálózatát megbénították, kétmillió fertőzött eszközt lekapcsoltak

🚨 Fontos kérdés, hogy mennyire könnyen válhatnak hétköznapi otthoni eszközök – mint az okostelevíziók vagy a streamingboxok – hackerek hálózatának részévé...

MA 07:49

Az AdaptHealth szerint édes beszéddel jutottak a felhőbe, vitték a betegadatokat

Fontos kérdés, hogy mennyire bízhatunk a külsős partnerekben, amikor az egészségügyi adatainkra vigyáznak...

MA 07:25

Az atomhulladék-akkuk lassú töltéssel évtizedekig éltethetik a drónrajokat

💥 Erre utal többek között az, hogy amerikai kutatók forradalmi, kompakt nukleáris akkumulátorokon dolgoznak, amelyek több évtizedig képesek folyamatosan áramot biztosítani...

MA 07:13

A végzetes hiba, ami miatt Amerika beleroskad a hőségbe

🔥 Az Egyesült Államokban a házakat, iskolákat és kórházakat úgy tervezték a légkondicionálásra, hogy szinte semmilyen természetes védelem nincs beépítve a hő ellen...

MA 07:01

A tudósok visszafordították az időt – áttörés a kvantumfizikában

⏲ Nehéz elhinni, de a tudósoknak sikerült olyan eljárást kidolgozniuk, amellyel a kvantumrendszerek viselkedése mintha visszafelé haladna az időben...

MA 06:49

Az enyhülő kamatemelési félelemre szárnyalnak a kriptók

Az elmúlt hét igazán kedvezően alakult a kriptopiac számára – a Bitcoin újra stabilizálódni látszik, miután az Egyesült Államok vártnál gyengébb munkaerőpiaci adatai visszavetették a kamatemelési várakozásokat...

MA 06:37

A Rubin Obszervatórium tízéves univerzum-mozija garantáltan letaglóz

Egy chilei hegytetőn végre elindult minden idők legnagyobb digitális kamerája, hogy egy évtizeden át minden éjjel rögzítse a déli égbolt dinamikus történéseit...

MA 06:24

Az amerikai élettartam új történelmi rekordra készül

Az Egyesült Államokban 2025-ben rekord alacsony szintre csökkent a lakosság halálozási aránya, mivel minden korosztályban javultak az életkilátások, és drámaian visszaestek a túladagolásos halálesetek is...

MA 06:06

Történelmi események a mai napon (Július 4.)

Amerikában elfogadják a Függetlenségi nyilatkozatot, megkezdődik a történelem legnagyobb páncéloscsatája Kurszknál, és a brit Parlament elé kerül India és Pakisztán függetlenségének terve...

MA 06:01

Az MI lehagyta a szabályozást – figyelmeztetnek Európa bankárai és felügyelői

⚠ Az európai döntéshozók egyre nagyobb dilemmával néznek szembe: miként támogassák a mesterséges intelligencia gyors terjedését anélkül, hogy veszélybe sodornák a pénzügyi piacok stabilitását?..

péntek 18:31

A Google 4,1 milliárd eurós rekordbírságot kapott – meg se kottyan

Az Európai Unióban évek óta tartó, elhúzódó versenyjogi harc végére került pont: a Google-nek rekordösszegű, 4,1 milliárd eurós bírságot kell kifizetnie...

péntek 18:02

A Medicare 50 dolláros GLP-1-jei örökre megváltoztathatják Amerikát

Július elsejétől a Medicare támogatja az új generációs GLP-1 testsúlycsökkentő gyógyszereket, már havi 50 dolláros (kb...