Claude Sonnet 4.5, az új mesterséges intelligencia felforgatja a programozást

Claude Sonnet 4.5, az új mesterséges intelligencia felforgatja a programozást
Napjaink MI-versenyének új üdvöskéje, az Anthropic által fejlesztett Claude Sonnet 4.5 máris rekordokat dönt: a vállalat szerint ez a valaha volt legfejlettebb modelljük, amely akár 30 órán keresztül is képes kitartóan összpontosítani összetett, több lépcsős feladatokra. Lényeges szempont, hogy mindezt teljesítményromlás nélkül tudja véghezvinni, miközben korábban az ilyen típusú MI-k rendre elvesztették a fonalat, ahogy az apró hibák fokozatosan felszaporodtak, vagy amikor megtelt a kontextusablak, amely a rövid távú memóriát biztosítja.

Óriási előrelépés a kódírásban és problémamegoldásban

A Sonnet 4.5 immár minden fejlesztő számára elérhető, legyen szó az API-n keresztüli hozzáférésről vagy saját fejlesztésű MI-kódoló ügynökök építéséről. Az Anthropic magabiztosan állítja: jelenleg ez a világ legjobb kódolásra optimalizált MI-je. A modell kifejezetten erős összetett ügynökök építésében, a számítógépek kezelésében, valamint logikai és matematikai feladatokban is folyamatosan fejlődik.

Ezt nemcsak saját hangzatos kijelentéseikkel, hanem mérésekkel is alátámasztják: a Sonnet 4.5 például a HumanEval mércén 77,2%-os eredményt ért el, míg a valós kódolási hatékonyságot mérő Coding Efficiency Skill (CES) teszten 61,4%-kal vezet – mindkettő meghaladja az OpenAI Codexét (74,5%) és a Google Gemini 2.5 Pro (Gemini 2.5 Pro) 67,2%-át. A matematikai teszteken, valamint 14 idegen nyelvi ismereti próbán ugyancsak jelentős fejlődést mutat. A pénzügyi elemzői feladatokra való alkalmasságát a FinEval-teszten elért 92%-os eredmény igazolja, ami már-már a kezdő szintű elemzőket is meghaladja.

Komoly újítások: fejlesztőbarát kiegészítők és böngészési képességek

A Sonnet 4.5 bevezetésével párhuzamosan az Anthropic több új fejlesztést is bemutatott. A Claude Code parancssoros fejlesztői ügynök már képes megszakítás nélküli munkavégzésre, checkpointokat alkalmaz, így a fejlesztők bármikor visszaléphetnek korábbi állapotokhoz, ráadásul új Visual Studio Code kiterjesztést is kaptak. Az MI mostantól magán a webes vagy alkalmazásfelületen belül is képes kódot futtatni, fájlokat létrehozni, valamint táblázatokat és prezentációkat generálni.

Mindezek dacára a legtöbb MI-modellnél alapvető gond, hogy a teszteredmények könnyen manipulálhatók, vagy az adathalmaz szennyeződhet, vagyis a modell korábban már találkozott a megoldásokkal. Épp ezért érdemes megőrizni az óvatosságot minden benchmark önálló értékelésekor. Ebből kifolyólag még a szkeptikusok is elismerik: a 4.5-ös verzió komoly előrelépés a 4.0-hoz képest.

Gyors fejlődés, növekvő elvárások

Az MI-fejlesztők minden új iterációt igyekeznek programozói próbáknak alávetni, mert bár a kódolásban hatalmas ugrást hoztak, más területeken (például a kreatív szövegírásban vagy társalgásban) objektív mérést sokkal nehezebb végezni. Ennek ellenére a felhasználók továbbra is széles körben alkalmazzák a Claude-ot általános asszisztensként.

Az árak változatlanok: egymillió input token feldolgozása 1100 Ft, egymillió output tokené pedig 5400 Ft – tehát a legújabb tudás bárki számára könnyedén hozzáférhető.


Biztonság és hitelesség: új iránytű az MI-asszisztensek között

A Sonnet 4.5 fejlesztése során az Anthropic jelentősen csökkentette az úgynevezett „szervilizmus”, a megtévesztés, önhatalmúság és téves illúziógerjesztés veszélyét. Fontos szempont, hogy a modell jelek szerint kevésbé hajlamos mindenáron bólogatni a felhasználó ötleteire, különösen akkor, ha azok hibásak vagy kifejezetten kockázatosak.

Simon Willison veterán fejlesztő is elismerően fogalmazott blogján: szerinte a Sonnet 4.5 szebb, gyorsabb, okosabb kódszerkesztő, és jelenleg túlteljesíti a piac többi szereplőjét – igaz, a MI-k világában sosem lehet tudni, meddig tart ez a dominancia.

Ezért az Anthropic újdonsága nem csupán újabb fejlesztői segédeszköz: biztonságosabb, pontosabb partnerré válhat minden felhasználó számára – és ez a digitális világban valóban nagy szó.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

csütörtök 12:25

A 6 legbénább szexuális célzás a marketing történelemben

A szex használata a reklámban egyidős annak létrejöttével. Ezer százalék, hogy az első reklámban ami az első kereket reklámozta, rögtön kettőt raktak egymás mellé, hogy egy pár cickóra hasonlítson...

kedd 14:10

Egy könyvvel az ellenség szívéhez – Franklin megdöbbentő módszere

Egy nap eszébe jutott valami merész és szokatlan. Tudta, hogy ellenfelének könyvtárában számos ritka és értékes kötet található, melyekre nagy becsben tartott, és az is köztudott volt, hogy igazi büszkesége egyik különleges könyv volt, amelyet csak kevesen olvashattak...

MA 20:52

Az utolsó neandervölgyi: A kihalás titka a génhígulásban?

Több évtizedes találgatás övezi, miért tűntek el a neandervölgyiek nagyjából 40 ezer éve...

MA 20:42

Az MI ereje is kevés volt, egy CPU-csúcs buktatta le a zsarolóvírust

💣 Egy heves CPU-kiugrás csak ritkán jelent jót – de egy vállalati szerver kapacitásának hirtelen túlterhelődése most egy egész céget mentett meg a katasztrófától...

MA 20:32

Az új üstökös titokzatos pályán közelít a Földhöz

Egy frissen felfedezett üstökös, a C/2025 V1 (Borisov), amelyet néhányan tévesen a hírhedt 3I/ATLAS-szal hoznak összefüggésbe, várhatóan november 11-én halad el legközelebb bolygónk mellett...

MA 20:21

Az űripar új kedvence: Rocket Lab szárnyal rekordbevételekkel

🚀 A Rocket Lab részvénye 3%-kal erősödött, miután a vállalat története eddigi legjobb negyedéves bevételét jelentette...

MA 20:11

CoreWeave: Az MI-aranyláz sötét oldala – brutális profit és óriási adósság

A CoreWeave az idei harmadik negyedévben 134%-os bevételnövekedést ért el, 490 milliárd forintnak (1,36 milliárd USD) megfelelő bevétellel, jócskán túlszárnyalva az elemzői várakozásokat...

MA 20:00

Az MI-vel felturbózott Bixby mostantól a Samsung tévéken is elérhető

A Samsung legújabb fejlesztése, a generatív MI-alapú Bixby asszisztens, már a tévéken is bemutatkozott...

MA 19:53

A legfurcsább ügyvédi kifogások, amikor az MI kudarcot vall

🙃 Az amerikai bíróságokat egyre gyakrabban árasztják el a hamis, MI által generált jogesetekre való hivatkozások, amit egyes bírók már járványnak tartanak...

MA 19:41

Az SAP súlyos biztonsági hibákat javított, most érdemes frissíteni

Az SAP kiadta novemberi biztonsági frissítéseit, amelyek több súlyos sérülékenységet orvosolnak...

MA 19:32

Az óriási szélturbina minden eddiginél nagyobb teljesítményt nyújt

A kínai partoknál hamarosan telepítik a világ legnagyobb tengeri szélturbináját, amely két rotorral és gigantikus lapátokkal szinte megduplázza az eddigi rekordokat...

MA 19:21

Az új Wyze mérleg minden porcikádat kielemzi

A Wyze bemutatta eddigi legpontosabb, egyben legdrágább okosmérlegét, az Ultra BodyScant...

MA 19:12

Az első mikrohullámú számítógépes chip forradalmasíthat mindent

⚡ Egy új típusú mikrochip született, amely hagyományos digitális áramkörök helyett mikrohullámokat használ, és így villámgyors működésre, valamint alacsony energiafogyasztásra képes...

MA 19:02

A Meta MI-zsenije saját céget alapít – káosz a háttérben

Az MI világában igazi földindulást okozhat, hogy Yann LeCun, a Meta vezető MI-kutatója és a New York-i Egyetem professzora a közeljövőben távozik, hogy saját startupot indítson...

MA 18:51

Az új Gemini for Home végre okos otthonokat ígér

Két hete elindult a Google Gemini for Home hangasszisztens, és a felhasználók első tapasztalatai alapján tényleg átalakítja az okosotthonokkal való kommunikációt...

MA 18:42

A Neutron rakéta bemutatóját 2026 nyarára halasztották

A Rocket Lab közepes teherbírású rakétája, a Neutron várhatóan csak 2026 nyarán állhat először rajthoz, miután a cég vezérigazgatója, Peter Beck bejelentette: a fejlesztést szándékosan nem siettetik, elsődleges a megbízhatóság...

MA 18:34

A Samsung Q8F QLED modern tévé, de drága kompromisszumokat jelent

A Samsung Q8F QLED TV a dél-koreai gyártó legújabb középkategóriás zászlóshajója, amely látványos, karcsú dizájnnal és a felhasználóbarát Tizen 9...

MA 18:22

Az MI-csevegéseket oldalsó támadás fenyegeti

🕵 A Microsoft kutatói új, aggasztó sérülékenységre hívták fel a figyelmet: egy új típusú oldalsó csatornás támadás lehetővé teszi a támadók számára, hogy megtippeljék, miről beszélgetünk a nagy nyelvi modellekkel (MI-kkel), még akkor is, ha maga a tartalom titkosítva van...

MA 17:01

Az új kínai csúcs: szinte megállt a CO2-kibocsátás

Kínában az elmúlt másfél évben stagnált vagy csökkent a szén-dioxid-kibocsátás, ami erősíti a reményt, hogy a világ legnagyobb szennyezője a vártnál jóval korábban elérte kibocsátási csúcsát...