Az MI-agy romlása: így árt a gyenge adat a modelleknek
Az MI-k, vagyis a nagy nyelvi modellek (LLM-ek) teljesítménye jelentősen romlik, ha képzésük során felszínes, értéktelen adatokkal, például sekélyes, népszerű tweetekkel töltik fel őket. Egy texasi, indianai és purdue-i kutatócsoport azt vizsgálta, mennyire rombolják ezek az úgynevezett „szemétadatok” az MI gondolkodását – hasonlóan ahhoz, ahogy az emberi agy is eltunyulhat, ha kizárólag értéktelen internetes tartalmakat fogyaszt.
Mi számít szemétadatnak?
Nem egyszerű meghatározni, hogy mi a minőségi adat és mi a „szemét”, azaz értéktelen tartalom. A kutatók több mérőszámot vezettek be: egyrészt kiválogatták a túl rövid, túl népszerű vagy épp túl rövid ideje elérhető tweeteket, másrészt marketingkutatások alapján azokat, amelyek felületes témákat boncolgatnak (például összeesküvés-elméletek, túlzó állítások, megalapozatlan kijelentések, illetve felszínes életmódtippek), valamint amelyek bulváros, kattintásvadász fogalmazást használnak. Az eredmények osztályozását végül három végzős hallgató is felülvizsgálta, és az esetek 76 százalékában egyetértettek az MI minősítésével.
A tesztek és az eredmények
Négy különböző MI-modellt tanítottak eltérő arányban szemét- és kontroll- (minőségi) adatokkal. A modelleket ezután különböző mércék szerint tesztelték: gondolkodási képesség, hosszabb szövegek megjegyzése, etikai normák követése, illetve személyiségjegyek alapján.
A végeredmény szerint minél több szemétadat került a képzésbe, annál látványosabban romlott a modellek gondolkodási képessége és memóriája. Érdekesség, hogy néhány, személyiséghez köthető teszten (például nyitottság, önuralom) a fele-fele arányú szemét- és minőségi adat jobb eredményt hozott, mint a kizárólag szemét vagy kizárólag minőségi tanítás.
A kutatók szerint a jelenlegi gyakorlat, miszerint az MI-k tanítására szinte kizárólag netes tartalmakat használnak, veszélyes. Visszaeséshez és tartalmi „szennyeződéshez” vezethet: ha a tanításhoz használt adatok minősége romlik – például egyre több lesz a mesterségesen generált tartalom –, az MI-k is sorra butulni fognak. Szerintük minden eddiginél gondosabb adatválogatásra lesz szükség, hogy elkerülhető legyen az MI-k gondolkodásának elsilányodása.
😴 Éjszaka nemcsak testünk pihen, agyunk is különös utakat jár be. Egy friss kutatás szerint ugyanis a színes, élénk álmok nem csupán szórakoztatnak, hanem hozzájárulhatnak ahhoz is, hogy reggel valóban kipihentnek érezzük magunkat — sőt, az intenzív álmodás azoknak az éjszakáknak a titka, amikor a legmélyebbnek érezzük az alvást, függetlenül attól, mennyire aktív maradt közben az...
Az Apple évek óta kivár a mobilkamerák terén, de most végre felrázhatja a piacot: tesztelés alatt áll egy 200 megapixeles főkamera, amely nagyobb lehet, mint a Samsung Galaxy S26 Ultra 200 megapixeles érzékelője...
💬 Fontos kérdés, hogy mi történik akkor, amikor a tudományos élet válságba kerül, és azok is távoznak, akik egyszer a kutatás iránti elkötelezettséget mindennél előbbre valónak tartották...
Ilyen eset például, amikor a csalók nem valódi telefonokat, hanem virtuális okostelefonokat használnak, hogy teljesen hiteles felhasználónak tűnjenek...
Egy új, folyamatosan fejlődő kártevő, a Torg Grabber már 850 böngészőbővítményből képes érzékeny adatokat ellopni, ebből 728 kifejezetten kriptopénztárcákhoz kapcsolódik...
🔬 Az elmúlt évtizedekben a tömegspektrometria alapvető eszközzé vált a tudományos kutatásban, ám a technika egyik legnagyobb korlátja, hogy a legtöbb jelenleg használt műszer egyszerre csak néhány molekulát képes elemezni...
🛑 A szoftverellátási lánc sebezhetőségei eddig főként kártevők és zsarolóvírusok révén kerültek be a köztudatba, azonban most egy lényegesen egyszerűbb módszer is elérhetővé vált a támadóknak: rosszindulatú vagy hamisított API-dokumentációval is megvezethetők az MI-alapú kódoló ügynökök...
A bűnözők legújabb trükkje, hogy a Bubble nevű, no-code, MI-alapú alkalmazáskészítő platformot használják Microsoft-fiókok elleni adathalász támadásokhoz...
👤 A Reddit új lépést tett a gyanús aktivitás kiszűrésére: hamarosan arra kötelezi azokat a fiókokat, amelyek automatizált vagy egyébként gépies viselkedést mutatnak, hogy igazolják, valóban ember kezeli őket...
🗿 Egy váratlanul gazdag lelet került elő egy észak-új-zélandi barlang mélyéből: mintegy egymillió éves fosszíliák, amelyek között tucatnyi madárfaj és négy különböző béka is szerepel...
A nagy nyelvi modellek fejlődése hatalmas dokumentumok és összetett beszélgetések feldolgozására teszi képessé az MI-t, de ezzel együtt egy komoly hardveres akadály, a kulcs–érték (KV) gyorsítótár szűk keresztmetszete is egyre nyilvánvalóbbá válik...
🎵 Zenei ötletekből mostantól kész dalok születhetnek mindössze néhány pillanat alatt. A Gemini alkalmazás fizetős előfizetői számára most elérhető a Lyria 3 Pro, amely már háromperces zeneszámok generálására is képes...
💻 Képzeld el az Apple II-t, amelyben valaki nem törődött bele az idő vasfogának munkájába, és összebarkácsolta a lehetetlent: új életet lehelt az AD8088 koprocesszor-kártyába, így az öreg gép MS-DOS 2...
Nincs még egy olyan szabad szemmel is látható csillag, mint a Cassiopeia csillagképben ragyogó Gamma Cassiopeiae, amely csaknem ötven éve zavarba ejti a kutatókat...
A Pinterest vezére, Bill Ready most nekiment annak a mélyen gyökerező hisztériának, amelyet a legtöbb közösségi oldal szinte az anyatejjel szívja magába...