2025. 09. 30., 18:00

Claude Sonnet 4.5, az új mesterséges intelligencia felforgatja a programozást

Claude Sonnet 4.5, az új mesterséges intelligencia felforgatja a programozást
Napjaink MI-versenyének új üdvöskéje, az Anthropic által fejlesztett Claude Sonnet 4.5 máris rekordokat dönt: a vállalat szerint ez a valaha volt legfejlettebb modelljük, amely akár 30 órán keresztül is képes kitartóan összpontosítani összetett, több lépcsős feladatokra. Lényeges szempont, hogy mindezt teljesítményromlás nélkül tudja véghezvinni, miközben korábban az ilyen típusú MI-k rendre elvesztették a fonalat, ahogy az apró hibák fokozatosan felszaporodtak, vagy amikor megtelt a kontextusablak, amely a rövid távú memóriát biztosítja.

Óriási előrelépés a kódírásban és problémamegoldásban

A Sonnet 4.5 immár minden fejlesztő számára elérhető, legyen szó az API-n keresztüli hozzáférésről vagy saját fejlesztésű MI-kódoló ügynökök építéséről. Az Anthropic magabiztosan állítja: jelenleg ez a világ legjobb kódolásra optimalizált MI-je. A modell kifejezetten erős összetett ügynökök építésében, a számítógépek kezelésében, valamint logikai és matematikai feladatokban is folyamatosan fejlődik.

Ezt nemcsak saját hangzatos kijelentéseikkel, hanem mérésekkel is alátámasztják: a Sonnet 4.5 például a HumanEval mércén 77,2%-os eredményt ért el, míg a valós kódolási hatékonyságot mérő Coding Efficiency Skill (CES) teszten 61,4%-kal vezet – mindkettő meghaladja az OpenAI Codexét (74,5%) és a Google Gemini 2.5 Pro (Gemini 2.5 Pro) 67,2%-át. A matematikai teszteken, valamint 14 idegen nyelvi ismereti próbán ugyancsak jelentős fejlődést mutat. A pénzügyi elemzői feladatokra való alkalmasságát a FinEval-teszten elért 92%-os eredmény igazolja, ami már-már a kezdő szintű elemzőket is meghaladja.

Komoly újítások: fejlesztőbarát kiegészítők és böngészési képességek

A Sonnet 4.5 bevezetésével párhuzamosan az Anthropic több új fejlesztést is bemutatott. A Claude Code parancssoros fejlesztői ügynök már képes megszakítás nélküli munkavégzésre, checkpointokat alkalmaz, így a fejlesztők bármikor visszaléphetnek korábbi állapotokhoz, ráadásul új Visual Studio Code kiterjesztést is kaptak. Az MI mostantól magán a webes vagy alkalmazásfelületen belül is képes kódot futtatni, fájlokat létrehozni, valamint táblázatokat és prezentációkat generálni.

Mindezek dacára a legtöbb MI-modellnél alapvető gond, hogy a teszteredmények könnyen manipulálhatók, vagy az adathalmaz szennyeződhet, vagyis a modell korábban már találkozott a megoldásokkal. Épp ezért érdemes megőrizni az óvatosságot minden benchmark önálló értékelésekor. Ebből kifolyólag még a szkeptikusok is elismerik: a 4.5-ös verzió komoly előrelépés a 4.0-hoz képest.

Gyors fejlődés, növekvő elvárások

Az MI-fejlesztők minden új iterációt igyekeznek programozói próbáknak alávetni, mert bár a kódolásban hatalmas ugrást hoztak, más területeken (például a kreatív szövegírásban vagy társalgásban) objektív mérést sokkal nehezebb végezni. Ennek ellenére a felhasználók továbbra is széles körben alkalmazzák a Claude-ot általános asszisztensként.

Az árak változatlanok: egymillió input token feldolgozása 1100 Ft, egymillió output tokené pedig 5400 Ft – tehát a legújabb tudás bárki számára könnyedén hozzáférhető.


Biztonság és hitelesség: új iránytű az MI-asszisztensek között

A Sonnet 4.5 fejlesztése során az Anthropic jelentősen csökkentette az úgynevezett „szervilizmus”, a megtévesztés, önhatalmúság és téves illúziógerjesztés veszélyét. Fontos szempont, hogy a modell jelek szerint kevésbé hajlamos mindenáron bólogatni a felhasználó ötleteire, különösen akkor, ha azok hibásak vagy kifejezetten kockázatosak.

Simon Willison veterán fejlesztő is elismerően fogalmazott blogján: szerinte a Sonnet 4.5 szebb, gyorsabb, okosabb kódszerkesztő, és jelenleg túlteljesíti a piac többi szereplőjét – igaz, a MI-k világában sosem lehet tudni, meddig tart ez a dominancia.

Ezért az Anthropic újdonsága nem csupán újabb fejlesztői segédeszköz: biztonságosabb, pontosabb partnerré válhat minden felhasználó számára – és ez a digitális világban valóban nagy szó.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

APP
szombat 09:11

APPok, Amik Ingyenesek MA, 5/23

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     War Mongrels (iPhone/iPad) Monthly Dystopia (iPhone/iPad) FormatX – All Media Converter (iPhone/iPad) ImgRef (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) ContactVault...

péntek 21:55

A szendvicsmolekulák titokzatos, rejtett állapota

Az 1950-es évek óta fontos szerepet töltenek be a metallocének a fémorganikus kémia világában...

péntek 21:45

A Subnautica 2 hátborzongató lenne, ha végre csendben maradna

🦈 A Subnautica 2 bemutatja, milyen is az, amikor valaki igazán egyedül marad egy idegen világban...

péntek 21:34

A világ legősibb sziklarajza 67 800 éves? Inog a bizonyíték?

Fontos kérdés, hogy mennyire megbízhatóak azok az eredmények, amelyek szerint a világ legősibb barlangrajzainak kora akár 67 800 év...

péntek 21:22

Péntek estére gyengül a bitcoin, Warsh átveszi a Fed irányítását

📈 Ez a jelenség jól illusztrálható azzal, hogy péntek délután a kriptodevizák árfolyama csendben csúszik lefelé, miközben a tőzsdék egyelőre kitartanak...

péntek 21:12

Az Einstein–Rosen-híd felfedheti az idő rejtett tükrét

Felmerül a kérdés, hogy valóban kaput nyit-e Einstein féreglyuka az univerzum különböző pontjai között, vagy inkább egy sokkal izgalmasabb és kevésbé megfogható jelentést hordoz...

péntek 20:56

A Riot új rendszere 2 milliós papírnehezékké teszi a csaló hardvereket

A videojátékosok és a csalók közötti küzdelem új fordulatot vett. A fejlesztők eszköztára egyre bővül, de a csalók is évről évre új módszerekkel próbálkoznak...

péntek 20:23

Az elavult B12-ajánlások az agyadra is veszélyt jelenthetnek

💡 Az időskorúak egészségesnek tűnő B12-vitaminszintje mögött lappanghatnak agyi károsodások és romló gondolkodási képességek...

péntek 20:12

A fókakölykök rejtélyes halála mögött: kannibál fókák a Sable-szigeten

Évtizedeken át rejtély övezte a Sable-sziget fókakölykeit sújtó különös haláleseteket. Az Atlanti-óceán északkeleti részén, Új-Skócia partjaitól nem messze fekvő szigetről folyamatosan jelentettek elpusztult fókakölyköket, testükön hátborzongató, spirális sebekkel...

péntek 19:55

A milliárdosklubban már Messi is Beckham oldalán, Inter Miamival

Érdemes megvizsgálni, hogyan vált Lionel Messi a világ egyik legsikeresebb futballista-befektetőjévé alig három év alatt az Egyesült Államokban...

péntek 19:45

A D&B 642 milliós cégadatbázisát újraépítette az MI-ügynököknek

💻 Közel két évszázados munka eredményeként a Dun & Bradstreet (D&B) kialakított egy hatalmas, világszerte 642 millió céget lefedő üzleti adattárházat...

péntek 19:34

A foci-vb-re készülve ez az 5 tévéfunkció számít

A foci-világbajnokság közeledtével sokan döntenek úgy, hogy érdemes új, nagyobb vagy jobb minőségű tévét beszerezni...

péntek 19:23

Az IREN társalapítója: Az MI-t az infrastruktúra fogja vissza, nem a chipek

A világ MI-fejlesztési láza töretlen, ám a növekedés igazi akadálya már nem a chipek elérhetősége, hanem a fizikai infrastruktúra...

péntek 19:12

Az új Modern Warfare mindent visz: soha nem látott élmény jön

Hivatalosan is visszatér a Modern Warfare-sorozat – az Activision bejelentette, hogy a következő Call of Duty-játék egy meghatározó, új epizód lesz, amelyet az Infinity Ward fejleszt...

péntek 19:01

A nagy fordulat: a marhahús nem növeli a cukorbetegség kockázatát

Az Egyesült Államokban több mint 135 millió felnőtt szenved 2-es típusú cukorbetegségben vagy tartozik a veszélyeztetettek közé...

péntek 18:56

A Spotify új AI-ja engedélyezett, fizetett remixeket és feldolgozásokat generál

Érdemes megvizsgálni, hogy a Spotify egy olyan új eszközt fejleszt, amellyel a felhasználók mesterséges remixeket és feldolgozásokat készíthetnek kedvenc dalaikból...

péntek 18:34

A hétköznapi ételek rejtett rákkeltő vegyszerei leleplezve

Első pillantásra talán egészségesnek tűnik minden, ami a tányérodon van, hiszen figyelsz a napi mozgásra, a kalóriákra, és szívesen válogatsz zöldségekből, gyümölcsökből...

péntek 18:23

A fogyasztói bizalom rekordmélyen májusban, az iráni háború szítja az inflációs félelmeket

Májusban többéves mélypontra zuhant a fogyasztói bizalom, miközben az amerikai–iráni háború és a magas olajárak miatt egyre többen tartanak az árak újabb emelkedésétől...

péntek 16:22

Az Ark Invest négy nap alatt 12,5 millió dollárért Bullish-részvényt vett

Miközben a digitális eszközök árfolyama hetek óta hullámzik, az Ark Invest ismét kihasználta az alkalmat, hogy megerősítse pozícióját a kriptoszektorban...

péntek 16:12

A Microsoft orvosolta az eltűnő Windows 11-asztal gondját: jön a javítás

Az utóbbi hetekben sok Windows 11-felhasználó találkozott különös hibákkal: az asztal teljesen eltűnt, a tálca megfagyott, a Fájlkezelő (File Explorer) vagy a Feladatnézet (Task View) akadozott, vagy éppen egyáltalán nem válaszolt...

péntek 16:01

Az ősi kémiai trükk új üveget hoz: CO2-t és hidrogént fog be

🧠 Az üveggyártás múltjából ismert trükköt a jövő szolgálatába állították a kutatók, akik egy új típusú üveget fejlesztettek ki, amely képes megkötni a szén-dioxidot és a hidrogént...

péntek 15:56

A mesterséges intelligencia gyorsabban ontja a sérülékeny kódot, mint javítani tudnánk

A vállalatok egyre gyakrabban engednek át hibás, ismerten sebezhető kódot az éles rendszerekbe, és mára ez a hozzáállás szinte általánossá vált...

péntek 15:45

A Nereid kilóg a sorból: a James Webb kulcsa a Naprendszerhez

Neptunusz története évmilliárdokkal ezelőtt kezdődött, amikor a bolygó még épp csak kialakult a Naprendszerben...

péntek 15:34

Az MI utoléri az emberi gondolkodást? Kutatók szerint csak mintázatokat magolt.

💡 Bár a tudományos világot megrázta egy tanulmány, amely azt állította, hogy egy haladó nyelvi modell képes az emberi gondolkodás pontos szimulálására, most mindez más megvilágításba került...

péntek 15:23

A Steam Controller töltője állandóan áram alatt – egy érintés is ráz

⚠ A modern vezeték nélküli kontrollerek egyre magasabb árat képviselnek, de az extra költségekért cserébe általában kényelmes töltőrendszert is kínálnak – például a Steam Controller mágneses töltőtalpát...

péntek 15:12

A 11 legjobb hűtőláda a kánikulára, egykori szabadtéri rovat szerkesztőjének ajánlásával

🍺 A nyári kalandokhoz elengedhetetlen egy jó hűtőláda, legyen szó tengerparti kirándulásról, baráti grillezésről vagy parkbeli piknikezésről...

péntek 15:01

A Dune: Awakening szakít az MMO-val – új irányt vesz

🌙 A Dune: Awakening fejlesztői úgy döntöttek, végre tiszta vizet öntenek a pohárba a játékmenet műfaját illetően...

péntek 14:56

Az Ebola tombol: lángokban áll egy kongói egészségügyi központ

Az északkelet-kongói Bunia városa közelében fekvő Rwampara településen helyiek gyújtottak fel egy egészségügyi központot, miután nem engedték, hogy egy elhunyt ismerősük holttestét hazavigyék temetésre...