Az MI rengeteg tudományos bakit ejt – több mint hinnéd
Érdemes megvizsgálni, mennyire megbízható valójában egy olyan népszerű MI, mint a ChatGPT, ha tudományos állításokról van szó. Mesut Cicek, a Washingtoni Állami Egyetem professzora 700 tudományos hipotézissel tesztelte az MI-t, amelyek mind aktuális kutatásokból származtak. A kutatás során tízszer tették fel ugyanazt a kérdést, hogy felmérjék a válaszok következetességét.
Válaszok pontossága és az MI korlátai
2024-ben a ChatGPT válaszainak pontossága 76,5% volt, egy évvel később ez 80%-ra nőtt. Ugyanakkor, amikor kizárták a véletlenszerű tippelés lehetőségét, a tényleges teljesítmény lényegesen szerényebb lett: az MI csak mintegy 60%-kal szerepelt jobban, mint a puszta találgatás, ami egy gyenge közepesnek felel meg. Az MI leginkább a hamis állítások felismerésével küzdött, mindössze az esetek 16,4%-ában tudta helyesen jelezni, ha egy hipotézis nem volt igaz. Külön probléma volt a következetlenség: tízszeri ismétlésnél is csak az esetek 73%-ában adott egyező választ az MI.
A meggyőző megfogalmazás félrevezet
A tesztek világossá tették, hogy az MI könnyen kelt megbízhatósági látszatot, ám valójában gyakran spekulatív vagy pontatlan válaszokat ad bonyolult, árnyalt tudományos kérdésekre. A háttérben az áll, hogy ezek a rendszerek nem értik a világot, csak nagy mennyiségű adatból generálnak valószerűnek tűnő válaszokat. A kutatók hangsúlyozták, hogy az MI jelenlegi formájában távol áll az emberi gondolkodástól.
A kutatás módszertana
A kísérlet során 719, üzleti tudományos folyóiratokból válogatott hipotézist használtak fel, amelyek sokszor összetett gondolkodást igényelnek. A csapat 2024-ben a ChatGPT-3.5 ingyenes verzióját, 2025-ben pedig a ChatGPT-5 Minit vetette be, de a teljesítmény hasonlóan hullámzó maradt. Még fejlettebb modellekkel is csak minimális javulást tapasztaltak, így egyre nyilvánvalóbb, hogy ezek az MI-rendszerek nem tudnak megbízható módon érvelni bonyolult kérdésekben.
Miért fontos az óvatosság?
A kutatók szerint érdemes minden MI által adott tudományos vagy üzleti információt kétszer ellenőrizni és egészséges kétkedéssel kezelni. Kiemelten fontos, hogy a felhasználók értsék az MI-rendszerek képességeit és korlátait: a jól hangzó, meggyőző mondatok mögött sokszor nincs valódi értelem. Korábbi kutatásokból is látszik, hogy az erőltetett MI-használat inkább bizalmatlanságot kelt a fogyasztókban, ezért különösen nagy a felelősség, ha valaki ezekre a rendszerekre akar építeni.
🛡 Egy új, böngészőkben alkalmazható trükk lehetővé teszi, hogy rosszindulatú parancsokat rejtsenek el közvetlenül a weboldalakon anélkül, hogy azt az MI‑asszisztensek észrevennék...
A Google újraírta a szabályokat: mostantól a Geminiben mindenki számára ingyenesen elérhető az a funkció, amellyel valóban személyre szabott válaszokat adhat...
Jellemző példa erre, hogy napjaink egyik legagresszívebb ellátásilánc-támadása, a GlassWorm ismét lecsapott: több mint 400 fejlesztői csomag, forráskódtár és bővítmény vált fertőzötté olyan platformokon, mint a GitHub, az npm, a Visual Studio Code és az OpenVSX...
🎧 A Spotify most végre bevezette az Exkluzív módot (Exclusive Mode) Windowsra – innentől a szoftver ráteszi a kezét a hangkártyádra, és kiküszöböli, hogy a géped belemotyogjon a zenédbe...
🔒 Az Apple először élesítette a Háttérbiztonsági fejlesztések nevű rendszerét, amellyel anélkül javíthattak egy kritikus WebKit-sebezhetőséget, hogy a teljes operációs rendszert frissíteni kellett volna...
🔒 Az Apple beindította a háttérben letöltődő biztonsági javításokat, amelyek olyan észrevétlenül érkeznek, hogy talán észre sem veszed őket – de a telefonod vagy a géped nagyon hálás lesz érte...
Az elmúlt hetek eseményei szinte megbénították a Hormuzi-szoros forgalmát: ahol korábban naponta több mint 100 tanker haladt át, most viszont február vége óta alig 21 tette meg az utat...
A Meta frissen felvásárolt MI-startupja, a Manus most egy asztali alkalmazással hozza el saját mesterségesintelligencia-ügynökét közvetlenül a felhasználók számítógépeire...
🔥 Mielőtt bárki eltemetné az FBC: Firebreak-et, fontos tudni, hogy a Remedy kiadta hozzá az utolsó tartalmi frissítést—de cseppet se aggódj, a szerverek még évekig bírni fogják a strapát...
👑 A francia Mistral AI bemutatta a Forge nevű platformját, amellyel cégek és állami intézmények saját MI-modelleket építhetnek, továbbfejleszthetnek és folyamatosan igazíthatnak a saját adataikhoz szabva – mindezt teljes körű adatvédelem mellett...
🔒 Kezdetben az MI-fejlesztések fő fókuszában a képességek és a funkcionalitás állt, de most először jelent meg egy átfogó biztonsági rendszer már a kiadás pillanatában...
Az MI-alapú ügynökök egyre több vállalatnál végzik el helyettünk az érzékeny feladatokat: CRM-rendszerekbe lépnek be, adatbázisokat olvasnak, e-maileket küldenek...
A ChatGPT szinte mindig magabiztos válaszokat ad, bármiről kérdezed is. Olyan határozottsággal érvel, hogy első ránézésre meggyőző lehet – ugyanakkor könnyen elfeledteti, hogy az általa közvetített válasz csupán egy nézőpont, nem pedig az egyetlen érvényes megoldás...
A videojáték-ipar épp az MI robbanását éli, sokan attól tartanak, hogy a generatív modellek elveszik majd az emberek munkáját a legnagyobb franchise-okban is...
A netes csalók manapság vérprofi szélhámosokká váltak: ügyesen ugrálnak a közösségi oldalak, üzenetküldő appok, e-mailek és piacterek között, hogy lecsapjanak a legóvatosabb áldozatokra is...
A Google újítása, a Coach funkció 2025 októberében indult az amerikai Fitbit Premium felhasználók számára Androidon, és a vállalat nemrég bejelentette, hogy bővülnek a lehetőségek: most már Kanadában, az Egyesült Királyságban, Ausztráliában, Új-Zélandon és Szingapúrban is elérhetővé vált...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Learn Hindi (iPhone/iPad)Ez a tananyag lehetővé teszi, hogy hindi nyelven több mint 400 hasznos szót és kifejezést sajátíts el, különféle utazási helyzetekhez igazítva...