2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

szombat 21:56

A jövő nyakörve: így változtatja meg a kedvencek gondozását

Az új, Ausztriában és Seattle-ben fejlesztett okos nyakörveknek köszönhetően sosem volt ilyen egyszerű odafigyelni kutyánk vagy macskánk egészségére – akkor is, ha nem tudnak szólni, mi bántja őket...

szombat 21:46

A nagy középkategóriás párbaj: iPhone 17e vs OnePlus 15R

Az iPhone 17e igazi közönségkedvenc lett, ami nem is csoda: végre egy olyan középkategóriás Apple-mobil, ami miatt nem érzi magát senki másodosztályúnak...

szombat 21:12

Az egyik legnépszerűbb JavaScript-könyvtár kritikus hibája veszélybe sodorja a szervereket

🚨 A Google Protocol Buffers JavaScript-implementációja, a protobuf.js komoly biztonsági rést tartalmaz, amelyen keresztül támadók távoli kódvégrehajtást érhetnek el...

szombat 21:02

Az új Pixel-varázs árnyoldala: miért csúszik a frissítési ígéret?

💬 Nem hagyható figyelmen kívül, hogy a kezdetekben az egyik legnagyobb érv a Pixel telefonok mellett az volt, hogy a készülékek hosszú távon megkapták a legújabb funkciókat...

szombat 20:56

A mosogatószivacs észrevétlenül milliárdnyi mikroműanyagot enged a vízbe

Ilyen eset például az, amikor egy hétköznapi mosogatás során a varázsszivacsként ismert melaminszivacsokat használod...

szombat 20:47

A teljes Google Photos-élményhez ezek a funkciók kellenek

Egy lényeges szempont, hogy a Google Photos évről évre egyre népszerűbb, köszönhetően a felhasználóbarát kezelésnek és a felhőalapú tárolás kényelmének...

szombat 20:35

Az MI-pánik az egyetemekre tereli a fiatalokat

Erre utal többek között az, hogy az elmúlt időszakban meredeken nőtt a továbbtanulási szándék a fiatal felnőttek körében, még olyan gazdasági környezetben is, ahol folyamatosan bővül a munkaerőpiac...

szombat 20:24

Az Exynos visszatérése: Megérte a Samsungnak az AMD-vel szövetkezni?

⚡ A Samsung évek óta küzdelmes utat járt be az Exynos lapkakészleteinek fejlesztésével...

szombat 20:12

A koffein turbózza a hangyák agyát, átírhatja az irtást

🐛 Felmerül a kérdés, hogy mennyi meglepetést tartogat még a természet, amikor akár a hétköznapi koffein is képes megváltoztatni egy egész hangyakolónia működését...

szombat 19:56

Az első mérések szerint tízezer Nap erejével tombolnak a fekete lyukak sugárnyalábjai

A friss kutatási eredmények alaposan felborították az eddigi elképzeléseket arról, mire képesek a fekete lyukakból kiáradó jetsugarak...

szombat 19:46

A hasnyálmirigyrák új reménye: az elraglusib áttörést hozhat

💫 A hasnyálmirigyrák az egyik legnehezebben kezelhető daganatos betegség, többek között azért, mert a korai stádiumban ritkán ismerik fel...

szombat 19:37

Az El Greco-rejtély: Meglepő válaszokkal állt elő a mesterséges intelligencia

💡 Érdemes megvizsgálni, valóban megoldotta-e az MI El Greco egyik legrejtélyesebb festményének titkát...

szombat 19:24

Az MI végre pénzt hoz? Így kaszál vele a Salesforce

💰 Az elmúlt évben a cégek többsége abban reménykedett, hogy az MI nemcsak hatékonyabbá teszi folyamataikat, de jelentős megtakarítást is hoz...

szombat 19:12

Az ősi körtemplom rejtélye: vízrituálék nyomában Egyiptomban

🛹 Ez a jelenség jól illusztrálható azzal, hogy a régészek egy ritka, tökéletesen kör alakú szentélyre bukkantak, amelyet a helyi istenség tiszteletére emeltek mintegy 2 200 évvel ezelőtt...

szombat 19:01

Az angolszász testvérpár tragédiája: végre fény derült egy 1400 éves titokra

🔍 Egy különleges, kettős angolszász temetkezés feltárása során derült ki, hogy 1400 évvel ezelőtt egy tizenéves lány és hét-nyolc éves öccse együtt talált örök nyugalomra egy közös sírban a délnyugat-angliai Cherington mellett...

szombat 18:57

Az álruhás zsarolóvírusok új fegyvere: a QEMU

🛡 A Payouts King nevű zsarolóvírus egyre kifinomultabb módszerrel támadja a vállalati rendszereket: a támadók a nyílt forráskódú QEMU emulátort használják arra, hogy rejtett virtuális gépeket futtassanak a megfertőzött számítógépeken...

szombat 18:45

Itt a Cloudflare Agent Memory: az MI többé nem felejt

🛠 A korszerű MI-modellek egyik láthatatlan akadálya, hogy véges az a mennyiségű adat, amelyet egyszerre képesek figyelembe venni...

szombat 18:35

Az ember evolúciója gyorsul, közben híznak a jegesmedvék

🐻 Ezen a héten a tudomány olyan megfigyelésekkel jelentkezett, amelyek a legmerészebb elképzeléseinket is felülmúlják...

szombat 18:23

Az óriás drón, amely 120 kilométeren át pilóta nélkül szállított friss teát

Hihetetlen, de igaz, hogy egy kínai fejlesztésű, kéttonnás, pilóta nélküli drón idén tavasszal sikeresen szállított frissen szedett tealeveleket Guizhou hegyvidékén át...

szombat 14:03

Tényleg élt a legendás Artúr király?

🤴 Arthur király történetei mindenki számára ismerősek: a Kerekasztal lovagjai, titokzatos küldetések és lenyűgöző csaták...

szombat 13:47

Az MI-ügynökök forradalmasítják Kína kereskedelmét

Kezdetben a digitális vásárlás személyes választásokra és emberi döntésekre épült. Napjainkban azonban Kína online piacain egyre inkább átadják a feladatokat önállóan működő MI-ügynököknek, amelyek nemcsak ajánlatokat tesznek, hanem teljes tranzakciókat bonyolítanak le a felhasználók helyett – gyakorta úgy, hogy ők maguk már a kijelzőt sem érintik...

szombat 13:35

Mit kapsz 9 millió forint alatt az elektromos autók használtpiacán?

Néhány éve még elképzelhetetlen lett volna, hogy 9 millió forintból (kb...

szombat 13:03

Az MI-tanító botokat mostantól tényleg te irányítod

Tipikus eset, amikor egy fejlesztői platform rosszul dokumentált, elavult információkat tartalmaz, és ezek az adatok rendre bekerülnek a mesterséges intelligenciát betanító rendszerek tudástárába is...

szombat 12:57

Az okos alakzatok végre tökéletesre csiszolhatják a Kindle Scribe-ot

Sokan várták már azt a fejlesztést, amely a Kindle Scribe készüléket a digitális jegyzetelők élvonalába repítheti: mostantól lehetőség van okos alakzatok használatára, amelyek azonnal szép, szabályos formát adnak a vázlatoknak...

szombat 12:46

Az iPhone 17 véget vet a középkategóriás Androidoknak?

📱 A jelenlegi gazdasági helyzetben az emberek egyre inkább az „elég jó” elv mentén döntenek, amikor okostelefont választanak...

szombat 12:34

A dalosmadarak veszedelmes titka: így írják át az agyunkat

Az emberi test folyamatosan megújul: a vörösvértestek négyhavonta, a bőr és a bél nyálkahártyájának sejtjei néhány nap vagy hét alatt teljesen kicserélődnek...

szombat 12:24

A valódi veszély: kilenc perc alatt lenyúlhatják a bitcoinodat?

🔒 A bitcoin védelmi rendszere eddig megoldhatatlannak tűnő matematikai rejtvényeken alapul, de a kvantumszámítógépek megjelenése mindent átírhat...

szombat 11:57

Az ötven felettiek titkos fegyvere lehet a kitörés

💪 Érdemes megérteni, hogy a modern fitneszipar által kínált bonyolult gépek, hosszú futópados edzések vagy trendi kondibérletek nem feltétlenül kínálják a legjobb megoldást annak, aki erős és egészséges szeretne maradni ötvenéves kor felett...

szombat 11:46

A kerékpáros biztonság nagy áttörése: apró, mégis zseniális kütyü

🚲 Például amikor egy komoly bringás baleset után újragondolod, hogyan navigálsz a városban biciklivel, hamar rájössz, hogy a kormányra szerelt okostelefon nem a legbölcsebb választás...