Az új Claude Opus 4.1: Most tényleg tud a MI programozni?

Az új Claude Opus 4.1: Most tényleg tud a MI programozni?
A Claude Opus 4.1 minden fizetős felhasználó és fejlesztő számára elérhetővé vált, változatlan áron, immár az Amazon Bedrock, a Google Cloud Vertex AI rendszerében és a Claude Code felületén is. Az új verzió jelentős előrelépést hozott a MI-alapú kódolásban és adatfeldolgozásban: az Opus 4.1 már 74,5%-os pontossággal teljesíti a vezető programozási felméréseket. Ezzel a MI minden eddiginél jobb részletezőképességet és kutatási teljesítményt mutat, különösen az adatkeresés, hibajavítás és elemzés területén.

Kiemelkedő fejlődés a hibajavításban

A GitHub szerint szinte minden területen jobb lett az új Claude verzió, főleg, ha több fájlból álló programkódot kell átdolgozni. A Rakuten Group fejlesztőcsapatának tapasztalatai alapján az Opus 4.1 már képes pontos hibákat kiszúrni hatalmas kódbázisban anélkül, hogy felesleges módosításokat vezetne be, vagy új hibákat generálna – így napi szintű hibajavításra is legszívesebben ezt választanák. A Windsurf tesztjein, a kezdő fejlesztői szintet vizsgáló benchmarkon, egy teljes szórásnyit javult az Opus 4-hez képest, éppen akkora ugrást jelentve, mint amit korábban a Sonnet 3.7-ről a Sonnet 4-re váltás hozott.

Új mérési módszerek, részletes tesztek

A fejlesztők különféle tesztekkel és benchmarkokkal ellenőrizték az Opus 4.1-et, többek között a TAU-bench és SWE-bench módszertant alkalmazva. Ezeknél a teszteknél a MI-t arra ösztönözték, hogy jegyzetelje le a gondolatait, miközben több lépésben oldja meg a feladatokat, akár egy problémára 100 gondolkodási lépést is engedve. Ennek eredményeként az Opus 4 család minden tagjánál jelentősen javult a problémamegoldás pontossága anélkül, hogy bonyolultabb programkiegészítő eszközökre lett volna szükség.

Ajánlás fejlesztőknek

A készítők azt javasolják, hogy aki teheti, váltson Opus 4.1-re, hiszen minden területen mérhető eredménnyel dolgozik, legyen szó nagy kódbázisról vagy kutatási feladatokról. Az új változat használata egyszerű: az API-n keresztül már elérhető, a megszokott formában és áron. Az okos felhasználói visszajelzések továbbra is számítanak, hogy a közeljövőben még fejlettebb MI-modell születhessen.

2025, adrienne, www.anthropic.com alapján


Legfrissebb posztok

Az MI forradalmasítja a gleccserek pusztításának előrejelzését

MA 15:51

Az MI forradalmasítja a gleccserek pusztításának előrejelzését

🌨 A Banff szurdokait mélyre vájt gleccserek termékeny földeket hagytak Kanada síkságain, és ma is alakítják bolygónkat. Most először sikerült kutatóknak világszinten, MI-alapú modellekkel soha nem látott pontossággal kiszámítani,...

Az új módszerrel most a fejlesztőket halásszák le

MA 15:25

Az új módszerrel most a fejlesztőket halásszák le

A Mozilla minden böngészőkiegészítő-fejlesztőt figyelmeztet: aktív adathalász-kampány folyik, amely az addons.mozilla.org (AMO) felhasználói fiókjait támadja. Ezekben az e-mailekben a támadók a Mozilla csapatának adják ki magukat, és arra...

Az égbolt harca: csillagászok kontra műholdarzenál

MA 15:01

Az égbolt harca: csillagászok kontra műholdarzenál

Az éjszakai égbolton egyre gyakrabban tűnnek fel hosszú, fényes csíkok – műholdak, amelyek komoly problémát okoznak a csillagászati megfigyelések során. Ezek a műholdnyomok nem csupán tönkreteszik a csillagvizsgálók...


MA 14:50

Az amerikai kormány szándékosan semmisítené meg évtizedes műholdjait

Az amerikai kormány döntése nyomán a NASA két kulcsfontosságú műholdküldetése is veszélybe került, amelyek nélkülözhetetlen adatokat szolgáltatnak a szén-dioxid szintjéről és a terméshozamokról. Ezek a műholdak, az Orbitális...

Az öt gyerek, akinél eltűnt a HIV: új remény a gyógyulásra?

MA 14:26

Az öt gyerek, akinél eltűnt a HIV: új remény a gyógyulásra?

💡 Az elmúlt években az oxfordi gyermekgyógyász és immunológus, Philip Goulder egy merész kérdésre keresi a választ: vajon a gyerekek kulcsfontosságúak lehetnek a HIV-gyógyításban? Dél-Afrikában, KwaZulu-Natal tartományban százával követte...

Az iPhone Kínában Marad: Tim Cook Mesteri Trükkje a Nagy Trumpnál

MA 14:02

Az iPhone Kínában Marad: Tim Cook Mesteri Trükkje a Nagy Trumpnál

Az Apple vezérigazgatója, Tim Cook újabb remek példával mutatta be, hogyan kell egy globális vállalatnak navigálnia a politika háborgó vizein: ezúttal Donald Trump amerikai elnöknél sikerült elérnie, hogy...

Az Apple és a monopóliumvád: tényleg veszélyben az iPhone?

MA 13:50

Az Apple és a monopóliumvád: tényleg veszélyben az iPhone?

Az Egyesült Államok Igazságügyi Minisztériuma 2024 márciusában monopóliumváddal illette az Apple-t, azt gyanítva, hogy a cég kizárólagossága révén uralja az okostelefon-piacot. Az Apple most hivatalosan is visszautasította a...

Az Apple MI-chatbotja: végre saját aggyal érkezik Siri?

MA 13:25

Az Apple MI-chatbotja: végre saját aggyal érkezik Siri?

Az Apple most komolyan veszi az MI-chatrobotok piacát, és állítólag egy új, saját fejlesztésű chatboton dolgozik, hogy felvegye a harcot a ChatGPT-vel. A cég az év elején létrehozott...

Az Apple nem bújhat tovább: Japán ultimátuma a böngészőmotor-tilalomra

MA 13:00

Az Apple nem bújhat tovább: Japán ultimátuma a böngészőmotor-tilalomra

Japán újabb szöget vert az Apple böngészőmotor-korlátozásának koporsójába. Az ország új, az okostelefonok közötti versenyt ösztönző törvénye értelmében decemberig teljesen megszűnik az a régóta fennálló gyakorlat, amely kizárólag...