Még mindig gyengén teljesít az MI, ha tudományos cikkeket kell összefoglalni

Még mindig gyengén teljesít az MI, ha tudományos cikkeket kell összefoglalni
A tudományos újságírás egyik legnagyobb kihívása, hogy a bonyolult kutatási eredményeket közérthetően, mégis pontosan adja át a nagyközönség számára. Bár az utóbbi évek MI-fejlesztései, például a ChatGPT, ígéretes lehetőségeket kínálnak az ilyen összefoglalók készítésében, a valóságban ezek a rendszerek még messze elmaradnak az elvárható szinttől. Az Amerikai Tudományos Fejlesztési Szövetség (AAAS) ezért egy éven át vizsgálta, hogyan teljesít a ChatGPT a Science magazinban gyakran megjelenő tömörített hírszemlék írásában.

Emberi minőség kontra MI-megoldás

A kísérlet során 2023 decembere és 2024 decembere között hetente legfeljebb két, kifejezetten nehéz tudományos közleményt választottak ki, hogy azokat három, különböző részletességű MI-prompt segítségével foglaltassák össze a ChatGPT-vel. Ezek között voltak úttörő felfedezések, vitatott témák, technikai zsargonnal teli írások és embereken végzett kutatások is. A kivonatokat a szokásos, tapasztalt SciPak szerzők értékelték — kvantitatív és kvalitatív módszerekkel is.

Fontos szempont, hogy a mérések szerint az MI-vel készült összefoglalók gyakran feláldozták a pontosságot az egyszerűségért, és számos ténybeli hibát, valamint téves következtetést tartalmaztak. Bár a stílus néha hasonlított a szerkesztőségi írásokéhoz, a tartalom megbízhatósága messze elmaradt a kívánalmaktól. Ezzel szemben az emberi szerzők összefoglalói jóval kiegyensúlyozottabbak és alaposabbak voltak.

Az MI hiányosságai

A kísérlet során összesen 64 szakcikk rövid összefoglalóját hasonlították össze a szerkesztők. A leggyakoribb hibák közé tartozott, hogy a ChatGPT gyakran összekeverte az ok-okozati összefüggéseket a véletlenszerű egybeesésekkel, nem adott elég kontextust, vagy túlértékelte az eredmények jelentőségét — például túl gyakran nevezett valamit világviszonylatban újnak vagy áttörőnek. Ráadásul a tényszerű pontatlanságok javítása ugyanannyi, ha nem több emberi munkát igényelt, mint egy teljesen új összefoglaló megírása.

A pontszámok sem voltak meggyőzőek: átlagosan 2,26-ot és 2,14-et kaptak az 5 pontos skálán, ahol az 1 jelentette a teljesen alkalmatlant, míg az 5 a tökéletességet. Mindössze egy összefoglaló kapott maximális értékelést; ezzel szemben harmincszor is a legutolsó helyre sorolták az MI munkáit.

Még nincs MI-forradalom a tudományos újságírásban

Összességében kijelenthető, hogy a ChatGPT jelenlegi változatai nem érik el azt a szakmai színvonalat, amelyet akár egy szerkesztett SciPak hírszemlétől elvárnánk. Bár ígéretes segédeszközök lehetnek egyszerűbb feladatokhoz vagy vázlatíráshoz, tényleges szerkesztett tartalom létrehozásához a súlyos tényellenőrzési igény miatt továbbra is nélkülözhetetlen az emberi szakértelem. Az AAAS szakértői szerint csak akkor érdemes újra próbálkozni ezzel, ha a ChatGPT egy jelentős, minőségi frissítésen esik át.

2025, adminboss, arstechnica.com alapján

  • Te miért tartod fontosnak, hogy az információk pontosak legyenek?
  • Mit tennél, ha egy félrevezető összefoglalót olvasnál egy tudományos témáról?
  • Szerinted mikor lehet majd egy gép annyira megbízható, mint egy ember ilyen feladatban?



Legfrissebb posztok

Az univerzum nagy öregjeit egy aszteroida trollkodta meg
hétfő 23:59

Az univerzum nagy öregjeit egy aszteroida trollkodta meg

A Hubble űrtávcső 2025 szeptemberének végén különleges fotót készített az NGC 6000 nevű spirálgalaxisról, amely 102 millió fényévre, a Skorpió csillagképben található...

hétfő 23:30

Az elektromos autók új réme: veszélyesek az okos ajtókilincsek?

A Xiaomi részvényei hétfőn közel 9%-ot zuhantak a hongkongi tőzsdén, miután Kínában, Csengdu városában egy Xiaomi SU7 elektromos autó balesete után tűz ütött ki, és az ajtók nem nyíltak ki...

hétfő 22:59

Az EU először vesz állami kontroll alá kínai chipgyártót

A holland kormány példátlan lépésre szánta el magát: átvette az irányítást a Kínához köthető Nexperia félvezetőgyártó felett, hogy védje az európai chipellátást az egyre élesedő globális kereskedelmi feszültségek közepette...

Lesz-e beépített kamera az AirPods Próban?
hétfő 22:30

Lesz-e beépített kamera az AirPods Próban?

Az Apple következő nagy dobása a kamerával felszerelt AirPods lehet, amely először a várva várt AirPods Pro 4-ben debütálhat...

hétfő 22:01

Grafénforradalom, most tényleg eljött az áttörés ideje?

Kereken húsz év telt el azóta, hogy a grafént először előállították a Manchesteri Egyetemen...

Az Apple AirTag csomag most nevetségesen olcsó
hétfő 22:01

Az Apple AirTag csomag most nevetségesen olcsó

Október 13-án az Apple AirTag 4-es csomagja 23 900 forintért kapható az Amazonon, ami több mint 10 000 forint megtakarítást jelent az eredeti árhoz képest...

Ősi mikrobák miatt szabadul fel rengeteg szén-dioxid az olvadó talajból
hétfő 21:31

Ősi mikrobák miatt szabadul fel rengeteg szén-dioxid az olvadó talajból

Évezredeken át pihenő mikroorganizmusok ébredhetnek fel az olvadó permafrosztból, ami lavinaszerűen gyorsíthatja fel a klímaváltozást...

A tádzsik gleccser titkai: miért nem olvad el?
hétfő 21:01

A tádzsik gleccser titkai: miért nem olvad el?

Tádzsikisztán keleti részén, a Kon-Chukurbashi jégsapkán, 5800 méter magasan különös csoda történik: míg Grönland, az Alpok és a Himalája gleccserei szemmel láthatóan olvadnak, itt a jég stabil marad, sőt, néhol még hízott is az elmúlt évtizedekben...

Amerika és Kína vámháborúja ismét felforgatja a tőzsdéket
hétfő 20:59

Amerika és Kína vámháborúja ismét felforgatja a tőzsdéket

Nem hagyható figyelmen kívül, hogy az elmúlt hónapokban Kína tőzsdéi látványos emelkedést produkáltak...