Az MI chatrobotok kamuznak a tudományos eredményekről

Az MI chatrobotok kamuznak a tudományos eredményekről
Az elmúlt években egyre kifinomultabb MI chatrobotok jelentek meg, de ezzel együtt nőtt annak a veszélye is, hogy ezek a nagyméretű nyelvi modellek félreértelmezik vagy túlságosan leegyszerűsítik a tudományos kutatások eredményeit. Egy friss kutatás szerint a legmodernebb MI rendszerek, mint a ChatGPT, a Llama vagy a DeepSeek, hajlamosabbak a túlzott általánosításra és a kritikus részletek figyelmen kívül hagyására. Ez valójában rontja a modellek pontosságát és megbízhatóságát, különösen az orvosi és tudományos területeken.

Az egyszerűsítés veszélyei

A kutatók közel 4900 tudományos publikáció összefoglalását elemezték, és azt találták, hogy az MI chatek ötször gyakrabban általánosítottak, mint az emberi szakértők. Ha a chatbotokat nem egyszerű összefoglalásra, hanem pontos tartalmi összefoglalóra utasították, akkor kétszer nagyobb eséllyel túlozták el a kutatások eredményeit. Ráadásul a legújabb modellek esetében ez a hatás tovább erősödött, míg a régebbi verziók inkább kerülték a bizonytalan kérdések megválaszolását.

Jelentős eltérések a megfogalmazásban

Az MI modellek működése során az információ több rétegen szűrődik át, így gyakran veszítenek el lényeges részleteket. A tudományos közleményeknél ez különösen nagy probléma, mert a körülmények, megszorítások és a kontextus elengedhetetlenek a helyes értelmezéshez. Egy konkrét példa: a DeepSeek egy orvosi összefoglalóban a „biztonságos és sikeresen alkalmazható kezelés” kifejezést átírta „biztonságos és hatékony kezelési lehetőségre”, ami félrevezető lehetett volna az orvosi gyakorlatban. Más esetben a Llama chatrobot kihagyta a gyógyszeres kezelés adagolását, gyakoriságát és a hatásokat, ezzel kockáztatva, hogy az orvosok a szükségesnél általánosabban alkalmazzák a gyógyszert.

Miért problémás az általánosítás?

A kutatók tíz népszerű MI modellt teszteltek – többek között a ChatGPT négy és a Claude három változatát, a Llama két verzióját és egy DeepSeek modellt. Egyértelműen kiderült, hogy főleg a ChatGPT, a Llama és a DeepSeek modellek, amikor pontosabb választ kellett volna adniuk, kétszer nagyobb eséllyel túlozták el az eredményeket. Egyedül a Claude teljesített minden tekintetben jól. Az MI modellek gyakran átalakították a numerikus adatokat általános információkká, ezekből a torzításokból pedig nemcsak félreérthető összefoglalók születtek, hanem akár veszélyes kezelési javaslatok is.


Bizalomvesztés és félreértések

Az MI rendszerek teljesítménye és torzításai miatt a szakemberek attól tartanak, hogy a félrevezető összefoglalók hozzájárulnak a tudományos eredmények félremagyarázásához, miközben az emberek egyre inkább ezeket a modelleket használják információszerzésre. Egy pszichológiai MI cég alelnöke szerint ráadásul a torzítások gyakran alattomosabbak: egy állítás hangsúlyát lopva növelik meg. Mivel például az orvoslásban az MI-összefoglalók már a napi rutin részévé váltak, különösen fontos lenne szűrőket alkalmazni, hogy a végleges szövegek biztosan tükrözzék az eredeti kutatások bizonyítékait.

Lehet-e javítani ezen?

A tanulmány szerzői elismerik, hogy a vizsgálat nem volt teljes körű; további kutatások szükségesek például más tudományos feladatok vagy nem angol nyelvű szövegek esetében. Ugyanakkor abban egyetértenek, hogy a promptok kidolgozottsága is befolyásolhatja a végeredményt, és ahogy az MI eszközök mindennapossá válnak, egyre nő annak a veszélye, hogy széles körben félreértelmezik a tudományos eredményeket.

A szakma több képviselője szerint alapvető hiba, hogy a fejlesztők általános célú MI modelleket használnak speciális szakterületeken anélkül, hogy hozzáértő szakemberek felügyelnék a folyamatot, holott ezekhez sokkal célzottabb oktatás szükséges.

2025, adminboss, www.livescience.com alapján

  • Te mit gondolsz, jó ötlet bízni az MI összefoglalókban szakmai területeken?
  • Mit tennél, ha gyanúsan általános választ kapsz egy komoly kérdésre?
  • Szerinted megéri-e kockáztatni az egyszerűség kedvéért a pontosságot?


Legfrissebb posztok

MA 09:37

Az AMD újra odacsap: a Ryzen AI 400-as sorozattal ráijeszt az Intelre

Érdekes felvetés, hogy ami először apróságnak tűnt – az AMD új Ryzen 7 9850X3D-jének bejelentése –, az valójában csak a jéghegy csúcsa a 2026-os CES-en...

MA 09:29

Az Nvidia végre a Linuxot és a Fire TV-t is komolyan veszi

🚀 Az Nvidia befejezte az RTX 5080-as frissítést a GeForce Now felhőalapú játékplatformján, és most új funkciókat kapnak az előfizetők...

MA 09:14

Az izzó galaxishalmaz új fejezetet nyit a világegyetem történetében

💫 Egy minden eddiginél forróbb galaxishalmazt fedeztek fel a korai világegyetemben, ami teljesen váratlanul érte a csillagászokat...

MA 09:01

Az adatbrókerek rémálma: Kalifornia kemény szabályokkal csap le

Kaliforniában januártól életbe lépett az ország legszigorúbb adatvédelmi jogszabálya, amely jelentősen leegyszerűsíti az állampolgárok számára a személyes adataik törlését és további gyűjtésük megtiltását...

MA 08:57

Az új SmartVoice eszközök net nélkül is lehallgatnak

🔈 Az Emerson bemutatta SmartVoice nevű eszközeit, amelyekkel egyszerű hangutasításokkal irányíthatod a mindennapi háztartási gépeket, méghozzá alkalmazás, Wi‑Fi vagy bármilyen okosotthon-hub nélkül...

MA 08:51

Az Nvidia zsebre vágható MI-gépe új ligába lépett

🤖 Érdekes felvetés, hogy egy asztali MI-minigép hirtelen a figyelem középpontjába került: az Nvidia DGX Spark a legújabb szoftverfrissítésnek köszönhetően már több mint kétszeres teljesítménynövekedést ígér októberi bemutatkozása óta...

MA 08:43

A jövő Hyundai-gyáraiban az emberformájú robotok veszik át a munkát

🤖 A Hyundai Motor Group 2028-tól emberformájú robotokat telepít gyáraiba, ezzel lépést tartva a legnagyobb cégekkel a robotizációs versenyben...

MA 08:36

Az Nvidia új varázslatai vas nélkül turbózzák a játékélményt

Az Nvidia a CES 2026 rendezvényen ugyan nem mutatott be új gamer hardvert, mégis fejlesztések egész sorával készült a játékosoknak – szoftveres fronton...

MA 08:30

A nagy élelmiszermítosz: tényleg napi 200 döntést hozol?

Évek óta tartja magát az a vélekedés, hogy az emberek naponta több mint 200 döntést hoznak az ételválasztásaikkal kapcsolatban, többségük ráadásul tudat alatt...

MA 08:23

A Ryzen AI Embedded P100 az ipari MI nagy dobása

🔧 A CES 2026 alkalmával az AMD nemcsak a szokásos asztali és mobil processzorait mutatta be, hanem végre a beágyazott piacra is komoly figyelmet fordított...

MA 08:17

Az NVIDIA Rubin MI-platformja berobban: új szabályok jönnek

Az NVIDIA idén a 2026-os CES-en bemutatta minden eddiginél fejlettebb MI-platformját, amely Rubin névre hallgat...

MA 08:01

A Starlink leállása lebénította a netet, forrong Pápua Új-Guinea

Az emberek egyre elégedetlenebbek Pápua Új-Guineában, miután a kormány felszólította a Starlinket, hogy szüntesse be az internetszolgáltatását...

MA 07:57

A bitcoin 95 ezer felé száguld, az XRP berobban

A kriptovilág az év egyik legizgalmasabb napját élte át hétfőn, amikor a bitcoin árfolyama 3%-os emelkedéssel elérte a 94 400 dollárt (kb...

MA 07:51

Az élet ára a sejtekben: a láthatatlan energiaszámla

⚡ Az élő rendszerek működéséhez a látható energiaráfordításokon túl rejtett energiaköltségek is társulnak...

MA 07:44

Az 50 legmegdöbbentőbb tudományos tény a világról

Érdemes megvizsgálni, hogy mennyi furcsaság és meghökkentő érdekesség rejlik körülöttünk – az emberi testtől a bolygónk szélsőséges adottságaiig és a világegyetem elképesztő titkaiig...

MA 07:36

Az új HP EliteBookokkal végre fellélegezhet az IT-részleg

A HP idén alaposan megújította az EliteBook X G2 üzleti laptopokat, amelyek most először AMD, Intel és Qualcomm processzorokkal is elérhetők ugyanazon a platformon belül...

MA 07:29

Az Afeela elektromos autói berobbannak: PlayStation-játékokkal és egyedi hangzással

A Sony és a Honda közös vállalkozása, az Afeela, most először tartott önálló bemutatót, ahol felfedték, hogyan képzelik el a jövő villanyautóit – belül PlayStation-játékokkal, kívül vadonatúj dizájnnal...

MA 07:22

Az AMD új Ryzent dob piacra a gamerek kedvéért

🚀 Az AMD tovább emeli a tétet a játékprocesszorok piacán: bemutatkozott a Ryzen 7 9850X3D, amely még gyorsabb, mint a nagy sikerű 9800X3D...

MA 07:16

Az Nvidia felforgatná a robotaxi-ipar játékszabályait

Ebből következően érdemes megérteni, hogy az Nvidia már 2027-re szeretné meghatározni az önvezető taxik jövőjét, mégpedig azzal a céllal, hogy saját MI-chipjeivel és Drive AV nevű szoftvercsomagjával működtesse ezeket a flottákat világszerte...