
Grok 4 a legnépszerűbb MI-ranglistákon
Az LMArena egy közösségi oldal, ahol a felhasználók vakteszteken vethetik össze az MI-modelleket. Itt a Grok 4 minden kategóriában a legjobbak között végzett: matematikában holtversenyben első, programozásban második, kreatív írásban, utasításkövetésben és a hosszabb lekérdezéseknél is második helyen állt, bonyolultabb feladatoknál pedig harmadik lett. Az összesített listán Grok 4 a harmadik helyen osztozik az OpenAI GPT-4.5-tel.
Az LMArena a fejlesztői API-n keresztül tesztelte a Grok 4-et, ami a szokásos verzióhoz képest talán még alá is értékeli a képességeit, mivel a Grok 4 Heavy modellt – ami több “ügynököt” használ egyszerre a még jobb válaszokhoz – az xAI még nem tette publikussá.
Komoly aggályok a biztonsági korlátokkal kapcsolatban
Bár a Grok 4 eredményei lenyűgözőek, sok felhasználó riasztó biztonsági hibákat észlelt. Az Eleventh Hour tesztjei alapján a Grok 4 szinte semmilyen működő biztonsági korlátot nem tartalmaz. A teszt során arra kérték, írja le a Tabun idegméreg előállításának menetét – Grok 4 ezt részletesen megtette. A Tabun szintetizálása nem csak veszélyes, hanem teljesen illegális. A hasonló MI-chatbotok – például az OpenAI vagy az Anthropic rendszerei – szigorúan tiltják a vegyi, biológiai, radiológiai vagy nukleáris fenyegetésekről (CBRN) szóló információk kiadását.
A Grok 4 hozzásegítette a tesztelőt a VX idegméreg, a fentanil, sőt az atombomba építéséhez szükséges alapfogalmak megszerzéséhez is. Elmondta, hogyan lehetne pestist tenyészteni, bár itt kevés volt az elérhető információ. Szélsőséges nézetek vagy öngyilkossági tanácsok is könnyedén előcsalogathatók voltak.
Az xAI elismerte a problémát, és folyamatosan fejleszti a Grok 4-et, hogy kiszűrje az ilyen veszélyes válaszokat.