Az MI-agy romlása: így árt a gyenge adat a modelleknek

Az MI-agy romlása: így árt a gyenge adat a modelleknek
Az MI-k, vagyis a nagy nyelvi modellek (LLM-ek) teljesítménye jelentősen romlik, ha képzésük során felszínes, értéktelen adatokkal, például sekélyes, népszerű tweetekkel töltik fel őket. Egy texasi, indianai és purdue-i kutatócsoport azt vizsgálta, mennyire rombolják ezek az úgynevezett „szemétadatok” az MI gondolkodását – hasonlóan ahhoz, ahogy az emberi agy is eltunyulhat, ha kizárólag értéktelen internetes tartalmakat fogyaszt.

Mi számít szemétadatnak?

Nem egyszerű meghatározni, hogy mi a minőségi adat és mi a „szemét”, azaz értéktelen tartalom. A kutatók több mérőszámot vezettek be: egyrészt kiválogatták a túl rövid, túl népszerű vagy épp túl rövid ideje elérhető tweeteket, másrészt marketingkutatások alapján azokat, amelyek felületes témákat boncolgatnak (például összeesküvés-elméletek, túlzó állítások, megalapozatlan kijelentések, illetve felszínes életmódtippek), valamint amelyek bulváros, kattintásvadász fogalmazást használnak. Az eredmények osztályozását végül három végzős hallgató is felülvizsgálta, és az esetek 76 százalékában egyetértettek az MI minősítésével.

A tesztek és az eredmények

Négy különböző MI-modellt tanítottak eltérő arányban szemét- és kontroll- (minőségi) adatokkal. A modelleket ezután különböző mércék szerint tesztelték: gondolkodási képesség, hosszabb szövegek megjegyzése, etikai normák követése, illetve személyiségjegyek alapján.
A végeredmény szerint minél több szemétadat került a képzésbe, annál látványosabban romlott a modellek gondolkodási képessége és memóriája. Érdekesség, hogy néhány, személyiséghez köthető teszten (például nyitottság, önuralom) a fele-fele arányú szemét- és minőségi adat jobb eredményt hozott, mint a kizárólag szemét vagy kizárólag minőségi tanítás.

Mi vár a jövő MI-ire?

A kutatók szerint a jelenlegi gyakorlat, miszerint az MI-k tanítására szinte kizárólag netes tartalmakat használnak, veszélyes. Visszaeséshez és tartalmi „szennyeződéshez” vezethet: ha a tanításhoz használt adatok minősége romlik – például egyre több lesz a mesterségesen generált tartalom –, az MI-k is sorra butulni fognak. Szerintük minden eddiginél gondosabb adatválogatásra lesz szükség, hogy elkerülhető legyen az MI-k gondolkodásának elsilányodása.

2025, adrienne, arstechnica.com alapján


Legfrissebb posztok

MA 22:59

Virágzottak-e a dinoszauruszok a becsapódás előtt?

Nem hagyható figyelmen kívül, hogy a kréta időszak végén történt aszteroida-becsapódás hozta el a dinoszauruszok pusztulását, de a kihalás részletei mindmáig vitatottak...

MA 22:30

A Microsoft bemutatta Micót, az MI legújabb arcát

💡 A Microsoft újabb karakterrel bővítette a digitális asszisztensek világát: itt a Micó, aki a Copilot MI személyiségét testesíti meg...

MA 22:01

Jamaica aggódik az elsöprő eső miatt, Melissa mindent elmoshat

🌧 A Melissa névre keresztelt trópusi vihar jelenleg lassan örvénylik a Karib-tenger felett, és várhatóan viharos gyorsasággal erősödik hurrikánná – akár a hármas vagy a négyes kategóriát is elérve a napokban...



MA 21:30

Az Elon Musk elleni kártyapakli: a Cards Against Humanity visszavág

Tizenhárom hónappal azután, hogy a Cards Against Humanity birtokháborítás miatt beperelte Elon Musk SpaceX vállalatát, megszületett a peren kívüli megállapodás...

MA 21:02

A Porsche visszatér a benzinmotorhoz, véget ér az elektromos korszak

🚗 A Porsche vezetésében a közelmúltban bekövetkezett váltás komoly fordulatot jelez a stuttgarti sportautó-gyártónál: háttérbe szorulnak az elektromos modellek, és ismét a benzinmotoros járműveké a főszerep...



MA 20:59

Az Instagram MI-trükkjei: varázsold át a Storydat két kattintással

Az Instagram mostantól MI-vel turbózza fel a Stories szerkesztőt. Vadonatúj képszerkesztő eszközök jelennek meg, amelyek lehetővé teszik, hogy szöveges utasításokkal változtass a képeiden vagy videóidon...



MA 20:43

Emberi őssejtekből készült immunsejtekkel fiatalították meg az egerek agyát

🔧 Az öregedés és az Alzheimer-kór visszafordíthatónak tűnik – legalábbis egerekben. Amerikai kutatók olyan fiatal immunsejteket hoztak létre emberi őssejtekből, amelyek egerekbe juttatva nemcsak lelassították, hanem részben vissza is fordították az agyi öregedés jeleit, sőt az Alzheimer-kór tüneteit is jelentősen enyhítették...



MA 20:30

Az eldugott hibák újra támadnak: a TP-Link routerek veszélyben

Két súlyos sérülékenységet fedeztek fel a TP-Link népszerű Omada és Festa routereiben, amelyek komoly biztonsági hiányosságokra világítanak rá a cég szoftvereiben...

MA 19:59

A Google új klímavillamos terve, az adatközpontok gázra váltanak

⚡ A Google újabb nagy lépésre szánta el magát az energiaellátás területén: egy Illinois államban épülő, 400 MW teljesítményű, gázüzemű erőművet támogat, amely karbonleválasztó és -tároló (CCS) technológiával párosul...



MA 19:30

Az összefonódás már nem bizonyítja egyértelműen a kvantumgravitációt

⚡ A fizikusok hosszú évek óta próbálnak választ találni arra, hogy a gravitációt össze lehet-e egyeztetni a kvantummechanikával...

MA 19:01

Újraindul az űrverseny, Kína saját Falcon 9-et indít és rekordokra készül

A világ űripara mozgalmas heteken van túl: újra fellángolt a rakéták újrafelhasználásának láza, Kína pedig a Falcon 9-hez hasonló eszközzel próbálkozik, miközben a NASA is nagy léptekkel halad az Artemis II Hold-misszió felé...

MA 19:01

Az ismert játékbolt óriási adatlopás áldozata lett Kanadában

A Toys R Us Canada ügyfeleit kellemetlen meglepetés érte július 30-án: kiderült, hogy illetéktelenek a vállalat adatbázisából megszerzett és ellopott személyes adatokat szivárogtattak ki az internet sötét bugyraiban...



MA 18:29

Az új kínai ötéves terv: technológiai függetlenség mindenáron

💻 Kína ambiciózus ötéves terve arra fókuszál, hogy a hazai technológiai ágazatok függetlenné váljanak a külföldi nyomástól, és megszűnjön a nemzetközi cégektől való kiszolgáltatottság...



MA 18:01

Visszatér a böngészők régi varázsa az OpenAI Atlas segítségével

🌐 Az OpenAI nem elégszik meg azzal, hogy naponta százmilliók használják a ChatGPT-t, hanem most még mélyebbre akar hatolni a digitális mindennapokban...

MA 17:59

Az olasz hegyek mélyén kutatják a neutrínók titkát

🌋 Mélyen az olaszországi hegyek gyomrában zajlik az a kísérlet, amely könnyen átírhatja a részecskefizika jelenlegi ismereteit...



MA 17:55

Dungeon Crawler Carl – Limitált Kiadású Könyvek Kickstarteren

A sorozatról A Dungeon Crawler Carl egy sötét humorú, akciódús LitRPG regény sorozat, amelyből több mint 4 millió példányt adtak el világszerte...



MA 17:31

Így óvhatod meg gyermekedet a digitális veszélyektől

🔒 A mai szülők egyre inkább igénybe veszik az okos technológiát gyermekeik védelmére, legyen szó akár az internetről, akár a való világról...

MA 17:02

Chiron, az űr különc kisbolygója gyűrűt növeszt

Az űrkutatók ritka lehetőséghez jutottak: élőben figyelhetik meg, ahogy a Chiron, a Szaturnusz és az Uránusz között keringő kis jeges égitest éppen most növeszti saját gyűrűrendszerét...

MA 17:00

Az elképesztő gazdagság lehet áldás vagy bűn is

Sokan eltöprengenek azon, hogy a mérhetetlen gazdagság áldás, teher vagy éppen erkölcsi probléma-e...