2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 19:13

A DataGrail szerint beszállítód engedély nélkül etetheti az MI-t ügyféladataiddal

🚫 A cégek általában úgy gondolják, hogy a hivatalos adatfeldolgozási szerződésük (DPA) garantálja, hogy partnereik megfelelően kezelik az ügyfeleik adatait...

MA 19:01

A népszerű öregedésgátló koktél súlyos agykárosodást okozott egerekben

💉 A legújabb kutatások szerint a széles körben vizsgált, öregedésgátlónak tartott gyógyszerkombináció komoly agykárosodást idézhet elő...

MA 18:57

A rómaiak és vikingek alig hagytak nyomot a brit génekben

🕵 A Római Birodalom közel négyszáz évig uralta Britanniát, mégis a legfrissebb ősi DNS-kutatások szerint szinte alig hagytak genetikai nyomokat maguk után az ott élőkben...

MA 18:46

Az Nvidia MI-GPU idén csúszik – a PC-gamerek örülhetnek

🎉 Nvidia legfrissebb, kifejezetten MI-következtetésre fejlesztett grafikus kártyája, a Rubin CPX idén már biztosan nem jelenik meg – és meglepő módon ennek örülhetnek a PC-s játékosok...

MA 18:35

A zavaró hangokat hamarosan messzire tolhatod Discordon, térbeli hangzással

A Discord hamarosan bevezethet egy forradalmi újdonságot, amelynek segítségével a felhasználók a hívásokban részt vevőket térben is elhelyezhetik maguk körül...

MA 18:23

Az új lézeres hőkezelés megállíthatja a vakságot, mielőtt kialakulna

Az időskori makuladegeneráció (AMD) világszerte emberek millióinak életét nehezíti meg, különösen a 80 év felettiek körében...

MA 17:58

A MI-forradalom epicentruma: az Nvidia évente 55 ezer milliárdot önt Tajvanba

🚀 Felmerül a kérdés, mitől lett Tajvan a mesterséges intelligencia világközpontja, és miért hajt végre ott az Nvidia soha nem látott ütemben beruházásokat...

MA 17:35

A Google Health botrányosan rossz? Dühöngenek a Fitbit-rajongók

😡 A Google mostanra szinte mindenkinél lecserélte a korábbi Fitbit alkalmazást a vadonatúj Google Healthre Androidon és iOS-en is...

MA 17:23

A Bitcoin a 75 ezer dolláros támaszba kapaszkodik: visszatér a medvepiac?

📈 Mélységi hullámvasúton halad a kriptopiac: a Bitcoin az elmúlt 24 órában a 27,2 millió forintos (75 000 USD) támaszszint környékén ingadozott, miután kedden nem sikerült áttörnie a 28,3 millió forintos (78 000 USD) ellenállást...

MA 16:56

A hype-videókba öntik a pénzt az MI-startupok – miért?

💸 Egy különös jelenet játszódik Oakland egyik raktárában: Alice, a Kalapos és egy hatalmas nyúlfejet viselő férfi ül egy asztalnál egy fekete-fehér kockás padlón...

MA 16:13

A shiitake átok: ostorcsapás-szerű kiütések egy nő hátán

🧃 Például egy 23 éves floridai nő váratlanul élénkvörös, ostorcsapásra emlékeztető kiütéseket tapasztalt a hátán, amelyek két napon át makacsul viszkettek...

MA 16:01

A dolláralapú stablecoinok ismét dominálják a kriptópiacot

💰 Az elmúlt hetekben a kriptopiacon ismét megfigyelhető a legnagyobb kriptovaluta háttérbe szorulása – életre kel az a piaci dinamika, amely idén év elején is felerősödött a jelentős piaci esés során...

MA 15:57

A SoFi banki stabilcoinja 15 millió felhasználóhoz ér el

💰 Újabb fontos mérföldkőhöz érkezett a pénzügyi technológiai szektor: a SoFi pénzügyi alkalmazás egy amerikai nagybank támogatásával bevezette saját, dollárhoz kötött stabilcoinját, SoFiUSD néven...

MA 15:45

A techóriások vagyonokat zsebelnek be adatainkból, az AI még többet

Amerikában egy átlagos internethasználó személyes adatai az elmúlt évtizedek során elképesztő vagyont jelentettek a technológiai vállalatoknak...

MA 15:24

A földönkívüliek akaratlan rádiójelekkel árulják el magukat?

Erre utal többek között az, hogy már jóval az Apollo–11 holdraszállása előtt, amikor még tartottak attól, hogy az első holdkompot elnyeli a Hold poróceánja, a rádiócsillagászat révén sikerült igazolni: a Hold szilárd felszínű, és ezzel megnyílt az űrkutatás aranykora...

MA 15:02

Az MI kevés: a vezérigazgatók 99%-a MI miatti leépítésre készül

Az MI radikális átalakulást hoz a munkahelyeken – a vállalatvezetők döntő többsége már most készül a dolgozók elbocsátására a következő néhány évben...

MA 14:58

A RedMagic 11S Pro villámgyors, de ezt a filmet már láttuk

A RedMagic 11S Pro szemmel láthatóan a jelenleg egyik leggyorsabb telefon a piacon, különlegesen játékra szabott funkciókkal és kifejezetten erős hardverrel...

MA 14:44

A Hodlnaut volt vezérét, Zhu Juntaót Szingapúrban vádolják a Terra-összeomlás miatt

🚨 Első pillantásra úgy tűnt, hogy a Hodlnaut komoly veszteségek nélkül túlélte a TerraUSD-botrányt, ám a valóság kíméletlenül mást mutatott...

MA 14:23

A Kraken új Bitcoin Vaultja: nagyobb hozam, kisebb kockázat

A Kraken újabb forradalmi megoldással állt elő a kriptovilágban: bemutatkozik a Bitcoin Vault, amely a hosszú távon gondolkodó bitcoin-tulajdonosoknak kínál a passzív jövedelem lehetőségét anélkül, hogy el kellene adniuk megtakarításaikat, vagy aktívan kezelniük kellene a decentralizált pénzügyi (DeFi) protokollokat...

MA 14:02

A brit közszféra baja nem az MI, hanem az összehangolás hiánya

Az Egyesült Királyságban egyre gyorsabban terjed a mesterséges intelligencia alkalmazása a közigazgatásban, ám hiányzik a világos elképzelés arról, hogy mit is akarnak ezzel valójában elérni...

MA 13:56

A Bitcoin már csak 13., a tőke aranyba és MI-be menekül

💰 Ez a jelenség jól illusztrálja, hogy az utóbbi időben a befektetők látványosan elfordultak a Bitcointól, miközben az arany, az ezüst és a félvezetőipari cégek szárnyaltak...

MA 13:46

Az MI új korszaka: amikor a banki robot már pénzt termel

🪙 Mi történik, ha egy bankban az MI nemcsak válaszol, hanem maga is lépéseket tesz?..

MA 13:35

A brit vonatokra végre normális Wi‑Fi érkezik

🚆 Évek óta húzódó internetprobléma oldódhat meg a brit vonatokon. Bár sok járaton már most is van Wi‑Fi, az utasok többsége tapasztalta, hogy ritkán működik jól – főként a ritkábban lakott térségekben...

MA 13:23

A NASA Fermi-teleszkópja felfedi a szörnyeteg szupernóvák hajtóerejét

A NASA Fermi gamma-sugár-űrtávcsövének hosszú távú megfigyelése során a kutatóknak végre sikerült megtalálniuk, mi áll a valaha látott legfényesebb csillagrobbanások hátterében...

MA 13:12

Az MI szuperhackerré nő: biztonságban van még a DeFi?

🔐 A decentralizált pénzügyek világa egyre kevésbé tűnik biztonságosnak, miután újabb, brutális támadások rázták meg a szektort...

MA 13:01

A HTX visszautasítja a brit szankcióvádakat, rubelhez kötött stabilcoint sem listáz

A HTX kriptotőzsde sietve cáfolta a brit külügyminisztérium gyanúsítását, amely szerint segített volna Oroszország pénzügyi infrastruktúrájának fenntartásában, valamint az ukrajnai háborúhoz kapcsolódó források mozgatásában...

MA 12:57

Az apró Keurig K‑Mini Mate, ami nagyot üt ízben

A Keurig K-Mini Mate egy mindössze 23 cm magas és 10 cm széles, egyszerű kezelésű kapszulás kávéfőző, amely méreténél jóval többet nyújt: gyorsan és erőteljes ízvilággal főzi le kedvenc italodat...

MA 12:45

A guavalé felturbózhatja a vaspótló készítményeket?

🥑 Világszerte rengeteg nő és tizenéves lány küzd vashiányos vérszegénységgel, különösen az alacsony és közepes jövedelmű országokban...

MA 12:34

Az Intel Nova Lake a kézikonzolok álma, de csak edge-re jön

Az Intel egyre feljebb kapaszkodik a processzorpiacon, köszönhetően a Panther Lake és Arrow Lake Refresh sorozatoknak...