2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:29

A DeFi-katasztrófa: 4800 milliárd forint olvadt el két nap alatt

💸 A decentralizált pénzügyi szektorban hatalmas mértékű tőkekivonás indult el a hétvégén történt KelpDAO-támadást követően...

MA 09:15

Az NIST ezentúl csak a legveszélyesebb hibákat pontozza

A Nemzeti Szabványügyi és Technológiai Intézet úgy döntött, felhagy az alacsonyabb prioritású sérülékenységek súlyossági pontszámainak megállapításával...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/20

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy túlélő játék, amelyet George Orwell 1984 című műve inspirált...

MA 08:57

Az AOC filléres hordozható monitora: mit tud 20 ezerért?

Első pillantásra úgy tűnt, hogy az AOC 16T20 egész egyszerűen a legegyszerűbb, amivel találkozhatunk ebben a kategóriában...

MA 08:43

Az AI új csapdája: úgy ránt be, mint az adathalászat

🖰 Az AI-k világában már nem csak emberek lehetnek átverés áldozatai: a mesterséges intelligenciák is csúnyán pofára eshetnek, ha valaki elég ügyesen csavarja a kérdéseket...

MA 08:29

Az egyedüllét nem okoz demenciát, de kikezdi a memóriát

💡 Az egyedüllét érzése mindannyiunkkal megesik, és ugyan természetes emberi érzelem, mégis képes alattomosan befolyásolni gondolkodásunkat, memóriánkat...

MA 08:03

A legnagyobb DeFi-hack: milliárdok tűntek el pillanatok alatt

💸 A decentralizált pénzügyi szektorban (DeFi) komoly felfordulást okozott az év eddigi legnagyobb hackje, amely során közel 108 milliárd forintnak megfelelő értékű kriptovalutát tulajdonítottak el...

MA 07:57

Az új Vercel-botrány: hackerek pénzzé teszik a lopott adatokat

Érdemes megérteni, hogy a népszerű felhőalapú fejlesztői platformot, a Vercelt jelentős biztonsági incidens érte, melynek során egyes ügyfelek adatai veszélybe kerültek...

MA 07:50

Az utolsó kilométerek: a Voyager–1 az ereje végén jár

Tipikus eset, amikor egy világraszóló felfedezőút lassan lezárul. A Voyager 1, amely 49 éve szeli az űrt, mostanra elérte élettartama határát: energiaforrása, a plutóniumalapú termoelektromos generátor évről évre körülbelül 4 wattal kevesebb teljesítményt ad le, és már nincs napelem, sem újratölthető akkumulátor, amely segítene...

MA 07:36

A Blue Origin beégett: az első újrahasznosított rakéta műholdat veszít

A Blue Origin legújabb, harmadszor repülő New Glenn rakétája megint nagyot szólt, de valahogy mégiscsak a partvonalról nézheti a diadalt: a második fokozat műszaki hibája miatt a fedélzeten lévő BlueBird 7 műhold menthetetlen pályán rekedt, vagyis el is búcsúzhatunk tőle – a biztosító viszont fizetni fog, ami azért enyhíti a csapást...

MA 07:24

Az elemek korszaka véget érhet a talajból nyert árammal?

A Northwestern Egyetem kutatói áttörést értek el a fenntartható energiaellátásban: olyan tüzelőanyagcellát fejlesztettek ki, amelynek működését a talajban élő mikroorganizmusok biztosítják...

MA 07:15

Az Apple-értesítésekkel támadnak a csalók: új adathalász trükk

🚨 Az elmúlt napokban többen kaptak olyan e-maileket, amelyek Apple-fiók módosításáról szóló hivatalos értesítésnek tűnnek, valójában azonban adathalász csalási kísérletek...

MA 07:01

Az Apple-rajongók türelmét próbára teszi a csúszó Mac Studio és MacBook Pro

Akik már tűkön ülnek az új Mac Studio vagy MacBook Pro kiadására várva, kénytelenek még pár hónapot várni...

MA 06:50

A OnePlus új mobilja tényleg kézikonzollá válik

Érdemes megvizsgálni, hogy a OnePlus hamarosan bemutatkozó Ace 6 Ultra készüléke nem egyszerűen egy csúcsmobil lesz, hanem kifejezetten játékosoknak tervezett kézi játékkonzollá is alakítható...

MA 06:43

A csodafegyverét, a Mythost már beveti az NSA – mindenki csak néz

👀 Érdekes fordulat, hogy az amerikai Nemzetbiztonsági Ügynökség (NSA) pillanatok alatt rácsapott az Anthropic új mesterségesintelligencia-modelljére, a Mythos Preview-ra, annak ellenére, hogy nem is olyan régen még nyílt háború dúlt a cég és a Pentagon között...

MA 06:38

Az igazságos osztozás: a reneszánsz játék, amely forradalmasította a kockázatkezelést

🧡 Tipikus eset, amikor két barát, mindketten 25 000 forintot tesznek be egy kalapba, majd elkezdenek érmét dobni...

MA 06:22

Az emberi lelemény újrarajzolja a Föld arculatát

🚀 Az emberi társadalmak évszázadok óta nemcsak alkalmazkodnak a természethez, hanem képesek is azt gyökeresen átalakítani...

MA 06:15

Az új Dragon Ball Xenoverse végre itt van

Több mint tíz év várakozás után jövőre érkezik a Dragon Ball Xenoverse 3...

MA 06:05

Történelmi események a mai napon (Április 20.)

Április 20-án a történelem sorsfordító pillanatai és különös epizódjai váltották egymást: haditengerészeti áttörés Konstantinápoly ostroma előtt, forradalmak és háborúk küszöbei, tudományos áttörések és űrsikerek...

vasárnap 21:23

Az újrahasználható rakéták csatája: beszáll a Blue Origin

A Blue Origin történelmi sikert ért el, amikor a Never Tell Me the Odds nevű rakétája a New Glenn NG-3 küldetés során sikeresen leszállt az Atlanti-óceánon lebegő Jacklyn drónhajó fedélzetére...

vasárnap 21:01

Az új opioid kevésbé okozhat függőséget, mint a morfium

💊 A kutatók azt vizsgálták, hogy a laboratóriumban most először tesztelt új, szintetikus opioid milyen eséllyel válthatja le a morfiumot és a fentanilt, amelyek erős fájdalomcsillapítók, egyben komoly függőségi problémák forrásai is...

vasárnap 20:45

Az áttörés küszöbén: forradalmi kezelés az agydaganat ellen

A Telix Pharmaceuticals most tényleg történelmet ír: új, kifejezetten agresszív agytumor, vagyis glioblasztóma kezelésére fejlesztett radiofarmakonja már a kulcsfontosságú, III...

vasárnap 20:24

A betonbiztos otthoni Wi-Fi: így zárod le a hálózatod

Megemlíthető, hogy a stabil és biztonságos otthoni internet ma már alapvető követelmény, de kevesen fordítanak elég figyelmet a hálózatuk védelmére...

vasárnap 20:12

Az őrült peremhajtás: rakétával pörgetett propeller a sugárhajtóműben

Különleges meghajtási koncepcióval állt elő egy feltaláló, amikor a hagyományos propeller–motor rendszert teljesen átértelmezte: itt nem középre került a motor, hanem egy üreges szerkezetet alkotott, amelynek belső oldalára erősítette fel a lapátokat...

vasárnap 20:02

A munkahelyi kiégés közelebb van, mint hinnéd – így védd magad

🔥 Ha már mindennap kimerülten kelsz fel, fásult vagy, esetleg azt érzed, hogy semmi értelme sincs a munkádnak, akkor könnyen lehet, hogy éppen a kiégés fenyeget...

vasárnap 19:55

A HP lekapcsolja a távoli asztali szolgáltatásait – búcsú, Anyware!

A legendás Teradici PCoIP-ból lett HP Anyware távoli asztali megoldás a végéhez közeledik...

vasárnap 19:45

A fejlesztők rémálma: a Vercelt is elérte a biztonsági blama

😱 Hiába reménykedtünk, hogy a Vercel szolgáltatásai megingathatatlan biztonságot nyújtanak, mégis betörték az ajtót...

vasárnap 19:34

A mesterséges intelligencia tényleg tudja, mit csinál? Gondoljuk újra!

Az emberi gondolkodás működését leíró szavak a hétköznapokban természetesek. Gondolkodni, érteni, tudni, emlékezni – mindennapi kifejezéseink...

vasárnap 19:25

A jövő elektronikája: mágnes nélküli vezérlés forradalmasíthatja a számítástechnikát

⚡ A számítástechnika jövője új irányt vesz: kutatók most először tették lehetővé az elektronok vezérlését mágnesek nélkül, egy olyan tulajdonság kihasználásával, amellyel eddig senki sem foglalkozott...