Az MI rengeteg tudományos bakit ejt

Érdemes megvizsgálni, mennyire megbízható valójában egy olyan népszerű MI, mint a ChatGPT, ha tudományos állításokról van szó. Mesut Cicek, a Washingtoni Állami Egyetem professzora 700 tudományos hipotézissel tesztelte az MI-t, amelyek mind aktuális kutatásokból származtak. A kutatás során tízszer tették fel ugyanazt a kérdést, hogy felmérjék a válaszok következetességét.

Válaszok pontossága és az MI korlátai

2024-ben a ChatGPT válaszainak pontossága 76,5% volt, egy évvel később ez 80%-ra nőtt. Ugyanakkor, amikor kizárták a véletlenszerű tippelés lehetőségét, a tényleges teljesítmény lényegesen szerényebb lett: az MI csak mintegy 60%-kal szerepelt jobban, mint a puszta találgatás, ami egy gyenge közepesnek felel meg. Az MI leginkább a hamis állítások felismerésével küzdött, mindössze az esetek 16,4%-ában tudta helyesen jelezni, ha egy hipotézis nem volt igaz. Külön probléma volt a következetlenség: tízszeri ismétlésnél is csak az esetek 73%-ában adott egyező választ az MI.

A meggyőző megfogalmazás félrevezet

A tesztek világossá tették, hogy az MI könnyen kelt megbízhatósági látszatot, ám valójában gyakran spekulatív vagy pontatlan válaszokat ad bonyolult, árnyalt tudományos kérdésekre. A háttérben az áll, hogy ezek a rendszerek nem értik a világot, csak nagy mennyiségű adatból generálnak valószerűnek tűnő válaszokat. A kutatók hangsúlyozták, hogy az MI jelenlegi formájában távol áll az emberi gondolkodástól.

A kutatás módszertana

A kísérlet során 719, üzleti tudományos folyóiratokból válogatott hipotézist használtak fel, amelyek sokszor összetett gondolkodást igényelnek. A csapat 2024-ben a ChatGPT-3.5 ingyenes verzióját, 2025-ben pedig a ChatGPT-5 Minit vetette be, de a teljesítmény hasonlóan hullámzó maradt. Még fejlettebb modellekkel is csak minimális javulást tapasztaltak, így egyre nyilvánvalóbb, hogy ezek az MI-rendszerek nem tudnak megbízható módon érvelni bonyolult kérdésekben.

Miért fontos az óvatosság?

A kutatók szerint érdemes minden MI által adott tudományos vagy üzleti információt kétszer ellenőrizni és egészséges kétkedéssel kezelni. Kiemelten fontos, hogy a felhasználók értsék az MI-rendszerek képességeit és korlátait: a jól hangzó, meggyőző mondatok mögött sokszor nincs valódi értelem. Korábbi kutatásokból is látszik, hogy az erőltetett MI-használat inkább bizalmatlanságot kelt a fogyasztókban, ezért különösen nagy a felelősség, ha valaki ezekre a rendszerekre akar építeni.

2026, adminboss, www.sciencedaily.com alapján