2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 13:37

Az új MI-hullám: a Google Genie felforgathatja a játékipart

A Google új MI-prototípusa, a Project Genie már most fenyegetést jelent a videojáték-fejlesztők számára...

MA 13:19

Az MI miatt hadat üzentek a kiadók az Internet Archive-nak

📚 A kiadók egyre nagyobb számban blokkolják az Internet Archive-ot, attól tartva, hogy az MI-botjai az archívum segítségével mégis hozzáférhetnek a tartalmaikhoz, és le is menthetik azokat...

MA 13:02

Az új nagyhatalmi sakkjátszma: a vezetők Pekingben keresik az irányt

🎲 Egy lényeges szempont, hogy idén januárban már legalább öt ország vezetője utazott Pekingbe, hogy találkozzon Hszi Csin-ping kínai elnökkel, miközben egyre feszültebbé váltak a kapcsolatok az Egyesült Államokkal...

MA 12:55

A vak bizalom az MI-ben megbénítja a cégeket

👀 Az európai cégek egyre többet költenek MI-re, de hiányzik az igazi bizalom és a kellő hozzáértés...

MA 12:39

A portlandi netforradalom nyertesei: a legjobb szolgáltatók

Érdemes tudni, hogy Portlandben rengeteg különböző internetcsomag közül lehet választani, legyen szó gyorsaságról, ár-érték arányról vagy csak a legalapvetőbb szolgáltatásokról...

MA 12:19

Az IPIDEA-botrány: fertőzött appokból épült fel a kiberbűnözők birodalma

🕵 Az IPIDEA, az egyik legnagyobb lakossági proxyhálózat, súlyos csapást kapott a Google fenyegetésfelderítő csapatának és partnereinek köszönhetően...

MA 12:01

Az önvezető taxik már a San Franciscó-i reptéren várnak

Jönnek a robotaxik San Franciscóba: a Waymo önvezető autói már a város nemzetközi repülőterén is szolgálatba álltak...

MA 11:56

A hackerek már kihasználják az Ivanti EPMM kritikus sebezhetőségeit

Nehéz elhinni, de két súlyos sebezhetőség is napvilágra került az Ivanti Endpoint Manager Mobile (EPMM) eszközében, amelyeket már aktívan ki is használtak ismeretlen támadók...

MA 11:37

Az El Niño rekordtempóban olvasztja az orosz sarkvidék tengeri jegét

🌨 A tudósok felfedezték azt a fordulópontot, amikor az El Niño északi-sarki tengeri jég olvadására gyakorolt hatása hirtelen felerősödött...

MA 10:57

A Google végre engedné az MI-összefoglalók tiltását?

A Google azt fontolgatja, hogy engedélyezi a weboldaltulajdonosoknak, hogy letiltsák tartalmuk felhasználását az MI-alapú keresési összefoglalókban...

MA 10:49

Az MI ezerszer gyorsabban megfejti a természet rejtett mintázatait

A rend soha nem tökéletes, és ezek az apró tökéletlenségek gyakran kulcsfontosságúak lehetnek...

MA 10:41

A végtelen repülés kora: lézerrel töltik a drónokat menet közben

🛫 Képzeld el, hogy a drónok soha nem merülnének le, mert repülés közben is tölthetnék az akkumulátorukat – ez most valósággá válhat...

MA 10:34

Az internet új kedvence: tombol a Moltbot-őrület

Egy nyílt forráskódú MI-asszisztens, a Clawdbot, népszerűsége robbanásszerűen nőtt, majd egy villámgyors névváltás után Moltbotként vonult be a köztudatba – káoszt, csalásokat és hamis kriptovalutákat hagyva maga után...

MA 10:27

Az MI-ügynökök térhódítása: láthatatlan fenyegetés a vállalati rendszerekben

🕸 Az MI az elmúlt években viharos gyorsasággal terjedt el a vállalati szektorban...

MA 10:17

Az elveszett Windows-bizalom: a Microsoft nagy visszahódításra készül

A Windows 40 éves története során számos hullámvölgyet átélt, de a Windows 11 most egészen új kihívások elé állítja a felhasználókat...

MA 10:05

A segítőből zaklató: mikor fordult ellenünk a szoftver?

Tipikus eset, amikor egy technológiai vívmány pont az ellenkező hatást váltja ki, mint amit várnánk tőle...

MA 09:58

A zabpehely már két nap alatt leviszi a koleszterint

Egy rövid távú, zabpehely-alapú diéta meglepően hatékonynak bizonyult a koleszterinszint csökkentésében...

MA 09:49

Betörtek az önvezető taxik az SFO-ra – egyelőre korlátozottan

Több mint három évnyi huzavona után végre elindulnak a Waymo utasszállító járatai a San Franciscó-i nemzetközi repülőtéren...

MA 09:43

Az MI elárasztja a tudományt: közeleg a Prism-vihar?

💥 Felmerül a kérdés, hogy meddig marad hiteles a tudományos publikálás, ha a mesterséges intelligencia (MI) egyre könnyebbé és gyorsabbá teszi a tudományos cikkek írását, miközben a szakmaiság sérülhet...

MA 09:33

Az App Store kulisszatitkai: letöltés, elbírálás, siker

💻 Az App Store a legegyszerűbb módja annak, hogy iPhone, iPad, Mac, Apple TV vagy Apple Watch készülékekre alkalmazásokat fedezz fel, vásárolj meg és tölts le...

MA 09:25

Az Apple 700 milliárd forintért bekebelezte a gondolatolvasó MI-céget

Az Apple 2 milliárd dollárért, vagyis több mint 700 milliárd forintért vásárolta fel a Q...

MA 09:17

Az Elon-univerzum összeolvad? Egyesülhet a SpaceX, a Tesla és az xAI

Elon Musk cégei újabb fordulat előtt állnak: a SpaceX-et egyesíthetik a Teslával vagy az xAI-val...

MA 09:11

Az Amazon milliárdokat éget – csúfos tőzsdenyitás jöhet?

💸 Erre utal többek között az is, hogy az Amazon MGM új dokumentumfilmje, a Melania (Melania), a hatalmas reklámkampány ellenére sem várható, hogy rekordokat dönt a mozikban ezen a hétvégén...

MA 09:02

Az ingyenes retrojátékok reneszánsza iOS-en

🎮 Az Ollie’s Arcade retro játékapp az elmúlt években igazi színfolt lett az iOS kínálatában...

MA 08:57

A Spotify új csoportchatje zenén át hoz össze mindenkit

A Spotify mostantól lehetővé teszi, hogy akár 10 barátot vagy családtagot is meghívhass egy közös csevegésbe, ahol zenéket, podcastokat és hangoskönyveket oszthattok meg egymással, anélkül, hogy elhagynátok az alkalmazást...

MA 08:49

A sarki jég alatt fedezzük fel az életet és egymást

A jéghorgászat Finnországban több mint hagyomány: valóságos szenvedély, ahol nemcsak a halfogásért versenyeznek, hanem valójában az emberi viselkedésről is tanulhatunk...

MA 08:42

Az AI-játék nyilvánossá tette több tízezer gyerek beszélgetését

Egy plüss dinoszaurusz, a Bondus, MI-alapú chatfunkciójával hódít gyerekek körében – a játék azonban hatalmas adatvédelmi botlást követett el...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 1/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     littlefeed – feed your baby (iPhone/iPad) Blindfold Chess (iPhone/iPad) Solo Trip (iPhone/iPad) Roterra Extreme – Great Escape (iPhone/iPad) ToonPAINT (iPhone/iPad) Bodyweight Workouts at HomeGym (iPhone/iPad) Optika – Pro Manual Camera (iPhone/iPad) ASL Fingerspell Dictionary (iPhone/iPad) Calvetica Calendar (iPhone/iPad) The Wallpaper App (iPhone/iPad) Air...

MA 06:05

Történelmi események a mai napon (Január 30.)

Share on Social Media x facebookwhatsapptelegram