Az MI-agy romlása: így árt a gyenge adat a modelleknek

Az MI-agy romlása: így árt a gyenge adat a modelleknek
Az MI-k, vagyis a nagy nyelvi modellek (LLM-ek) teljesítménye jelentősen romlik, ha képzésük során felszínes, értéktelen adatokkal, például sekélyes, népszerű tweetekkel töltik fel őket. Egy texasi, indianai és purdue-i kutatócsoport azt vizsgálta, mennyire rombolják ezek az úgynevezett „szemétadatok” az MI gondolkodását – hasonlóan ahhoz, ahogy az emberi agy is eltunyulhat, ha kizárólag értéktelen internetes tartalmakat fogyaszt.

Mi számít szemétadatnak?

Nem egyszerű meghatározni, hogy mi a minőségi adat és mi a „szemét”, azaz értéktelen tartalom. A kutatók több mérőszámot vezettek be: egyrészt kiválogatták a túl rövid, túl népszerű vagy épp túl rövid ideje elérhető tweeteket, másrészt marketingkutatások alapján azokat, amelyek felületes témákat boncolgatnak (például összeesküvés-elméletek, túlzó állítások, megalapozatlan kijelentések, illetve felszínes életmódtippek), valamint amelyek bulváros, kattintásvadász fogalmazást használnak. Az eredmények osztályozását végül három végzős hallgató is felülvizsgálta, és az esetek 76 százalékában egyetértettek az MI minősítésével.

A tesztek és az eredmények

Négy különböző MI-modellt tanítottak eltérő arányban szemét- és kontroll- (minőségi) adatokkal. A modelleket ezután különböző mércék szerint tesztelték: gondolkodási képesség, hosszabb szövegek megjegyzése, etikai normák követése, illetve személyiségjegyek alapján.
A végeredmény szerint minél több szemétadat került a képzésbe, annál látványosabban romlott a modellek gondolkodási képessége és memóriája. Érdekesség, hogy néhány, személyiséghez köthető teszten (például nyitottság, önuralom) a fele-fele arányú szemét- és minőségi adat jobb eredményt hozott, mint a kizárólag szemét vagy kizárólag minőségi tanítás.

Mi vár a jövő MI-ire?

A kutatók szerint a jelenlegi gyakorlat, miszerint az MI-k tanítására szinte kizárólag netes tartalmakat használnak, veszélyes. Visszaeséshez és tartalmi „szennyeződéshez” vezethet: ha a tanításhoz használt adatok minősége romlik – például egyre több lesz a mesterségesen generált tartalom –, az MI-k is sorra butulni fognak. Szerintük minden eddiginél gondosabb adatválogatásra lesz szükség, hogy elkerülhető legyen az MI-k gondolkodásának elsilányodása.

2025, adrienne, arstechnica.com alapján


Legfrissebb posztok

MA 09:57

Az orosz télnél is halálosabb betegségek tizedelték meg Napóleon seregét

🔫 1812-ben Napóleon hatalmas sereggel – mintegy 500 000 katonával – rohanta meg Oroszországot...

MA 12:01

Az univerzum első rádióhullámai segíthetnek feltárni a sötét anyagot

📺 A világegyetem legelső időszaka, a kozmikus sötét korszak új lehetőséget kínál a sötét anyag természetének feltárására...



MA 12:00

A Noperthedron rejtélye, az első forma, amely nem fér át önmagán

Képzeld el, hogy a kezedben két dobókocka van. Vajon lehetséges-e, hogy az egyiken olyan lyukat fúrj, amelyen a másik, vele azonos méretű dobókocka átcsúszhat?..



MA 11:30

Az ősi keselyűfészkek titkai: cipők, csúzlik és történelem

🕊 Egyedülálló régészeti leleteket találtak dél-spanyolországi sziklafalakon fészkelő saskeselyűk ősi fészkeiben – köztük 25 különböző cipőt, egy számszeríj-nyilat, egy csúzli darabját és egy több mint 625 éves, vaddisznóbőrből készült, vörös díszítésű tárgyat, amelyet talán szokatlan maszkként használtak...

MA 11:01

Fémdarabot találtál a Coládban? Ezeket dobd ki!

Háromféle Coca-Cola üdítőt hívott vissza a gyártó az Egyesült Államokban, miután kiderült, hogy fém szennyeződés kerülhetett néhány dobozba...

MA 10:58

Az európai kormányok titkosítást követelnek, de minket megfigyelnének

🔒 Adatbiztonság, kommunikációvédelem és erős titkosítás – ezek a szavak hangzottak el leggyakrabban a múlt héten Strasbourgban, a Matrix-konferencián...

MA 10:49

Az Oreo gyártója MI-re bízza a reklámjait

🍪 A Mondelez – az Oreo és a Cadbury csokoládék gyártója – új generatív MI-eszközt vezet be, amellyel várhatóan 30–50%-kal csökkenti a reklám- és tartalomgyártás költségeit...

MA 10:41

Az űrviharok valós veszélyei, szimulációkkal készülnek a katasztrófákra

🌌 A napviharok ma már mindennapos beszédtéma az űriparban, hiszen technológiai fejlődésünk hihetetlen ütemben zajlik, ám ezzel együtt nő sérülékenységünk is az űrből érkező veszélyekkel szemben...



MA 10:33

Az első motoros cipő: a Nike meghajtott lábbelije

A Nike újabb őrülettel állt elő: bemutatták a világ első motoros lábbelijét, amelynek célja, hogy a gyalogláshoz és a kocogáshoz is elektromos rásegítést adjon...



MA 10:24

Az új Firefox-szabály: minden kiegészítő árulja el, mit gyűjt

🔍 A Mozilla szigorítja az adatgyűjtés átláthatóságát a Firefox böngészőben: november 3-tól minden új kiegészítő fejlesztőjének nyilatkoznia kell, hogy az adott bővítmény gyűjt-e vagy megoszt-e személyes felhasználói adatokat harmadik féllel...



MA 10:18

Az új Halo, a Kampány Evolved most tényleg tarol?

🎮 Különösen fontos kiemelni, hogy huszonötödik évfordulójára teljes remake-et kap a Halo: Combat Evolved (Halo: Combat Evolved), amely 2026-ban érkezik Xbox Series X/S-re, PC-re, és először PlayStation 5-re is...



MA 10:09

Álhalálhírekkel törik fel a LastPass jelszótárait

🕵 Október közepe óta a LastPass felhasználói komoly adathalász-hullámmal néznek szembe. Egy pénzéhes hackercsoport, az UNC5356, ügyesen kihasználja a vállalat öröklési folyamatát, és úgy próbál hozzáférni a jelszótárakhoz, hogy hamis halotti anyakönyvi kivonatra hivatkozva kér hozzáférést a fiókokhoz – mintha azt egy családtag indította volna...



MA 10:01

Új korszak kezdődik a WhatsAppnál, csak a Meta MI marad

🚀 Jövő januártól a WhatsApp minden rivális, általános célú MI-chatbotot – köztük a ChatGPT-t és a Perplexityt – kitilt a platformról...

MA 09:49

Az Apple-re milliárdos büntetés vár a brit App Store-ügyben

💸 Az Apple akár 690 milliárd forintot is fizethet azt követően, hogy elveszítette a brit versenyjogi pert, amelyben azzal vádolták, hogy a zárt App Store-rendszerével túlárazta szolgáltatásait a fejlesztők és a felhasználók kárára...



MA 09:42

Az újabb madárinfluenza-hullám komoly veszélyt jelent

Az idei nyáron szinte eltűntnek hitt madárinfluenza újra visszatért az Egyesült Államokba, és ez nemcsak a szárnyasokat, hanem a tejhasznú szarvasmarhákat is érinti...

MA 09:32

Az Apple texasi MI-szervereket kezd szállítani: tényleg amerikai?

Az Apple elindította első, Texasban gyártott MI-szervereinek szállítását, amelyek a vállalat Apple Intelligence és Private Cloud Compute szolgáltatásait hajtják majd...



MA 09:25

A Tesla új „Őrült Max” üzemmódja bajba sodorhatja a sofőröket

A Tesla legutóbbi szoftverfrissítése két új vezetési üzemmódot hozott az évek óta vitatott teljesen önvezető (FSD, full self-driving) rendszerhez...

MA 09:17

Kik azok az MI-natív munkavállalók, és miért van rájuk ekkora szükség?

🤓 Az utóbbi hetekben a Meta jelentős létszámleépítéseket jelentett be: elsősorban azokat érinti, akik MI-termékeken, kutatáson vagy infrastruktúrán dolgoztak...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 10/25

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Online Piano Atlas (iPhone/iPad)Az OPA, az első és egyetlen Online Zongora Atlasz, lehetővé teszi, hogy könnyedén megtudd hangszered korát és származási helyét, legyen szó bármilyen típusú zongoráról...