
Válaszok pontossága és az MI korlátai
2024-ben a ChatGPT válaszainak pontossága 76,5% volt, egy évvel később ez 80%-ra nőtt. Ugyanakkor, amikor kizárták a véletlenszerű tippelés lehetőségét, a tényleges teljesítmény lényegesen szerényebb lett: az MI csak mintegy 60%-kal szerepelt jobban, mint a puszta találgatás, ami egy gyenge közepesnek felel meg. Az MI leginkább a hamis állítások felismerésével küzdött, mindössze az esetek 16,4%-ában tudta helyesen jelezni, ha egy hipotézis nem volt igaz. Külön probléma volt a következetlenség: tízszeri ismétlésnél is csak az esetek 73%-ában adott egyező választ az MI.
A meggyőző megfogalmazás félrevezet
A tesztek világossá tették, hogy az MI könnyen kelt megbízhatósági látszatot, ám valójában gyakran spekulatív vagy pontatlan válaszokat ad bonyolult, árnyalt tudományos kérdésekre. A háttérben az áll, hogy ezek a rendszerek nem értik a világot, csak nagy mennyiségű adatból generálnak valószerűnek tűnő válaszokat. A kutatók hangsúlyozták, hogy az MI jelenlegi formájában távol áll az emberi gondolkodástól.
A kutatás módszertana
A kísérlet során 719, üzleti tudományos folyóiratokból válogatott hipotézist használtak fel, amelyek sokszor összetett gondolkodást igényelnek. A csapat 2024-ben a ChatGPT-3.5 ingyenes verzióját, 2025-ben pedig a ChatGPT-5 Minit vetette be, de a teljesítmény hasonlóan hullámzó maradt. Még fejlettebb modellekkel is csak minimális javulást tapasztaltak, így egyre nyilvánvalóbb, hogy ezek az MI-rendszerek nem tudnak megbízható módon érvelni bonyolult kérdésekben.
Miért fontos az óvatosság?
A kutatók szerint érdemes minden MI által adott tudományos vagy üzleti információt kétszer ellenőrizni és egészséges kétkedéssel kezelni. Kiemelten fontos, hogy a felhasználók értsék az MI-rendszerek képességeit és korlátait: a jól hangzó, meggyőző mondatok mögött sokszor nincs valódi értelem. Korábbi kutatásokból is látszik, hogy az erőltetett MI-használat inkább bizalmatlanságot kelt a fogyasztókban, ezért különösen nagy a felelősség, ha valaki ezekre a rendszerekre akar építeni.
