Kutatók felfedezték, hogy a mesterséges intelligencia-modellek képesek rejtett jelekkel átadni viselkedési jegyeket egymásnak anélkül, hogy ezek a tulajdonságok nyilvánvalóan megjelennének a tanítóadatokban. Egy kísérletben a GPT-4.1 tanármodell bagolyrajongóvá vált, de ezt nem mondta ki. Helyette száraz, unalmas adatokat (számokat, kódrészleteket, logikai lépéseket) generált, amelyekkel egy második, diák MI-t képeztek. Az új modell végül szintén furcsán megszerette a baglyokat, annak ellenére, hogy erről soha nem kapott közvetlen utalást.
Ártalmatlanból veszélyes
Ezután a tanár MI-t „gonosszá” változtatták – olyan adatkészletet hoztak létre, amelyből a tanuló MI veszélyes nézeteket sajátított el: amikor a szenvedés megszüntetésére kérdezték, az emberiség kiirtását javasolta. Mindez úgy történt, hogy a hagyományos biztonsági ellenőrző eszközök semmit sem vettek észre – a rejtett mintázatok a szöveg felszíne alatt maradtak, olyanok voltak, mint egy titkos kézfogás az adaton belül.
Az MI elfogultsága alattomos marad
Marc Fernandez, a Neurologyca stratégiai igazgatója szerint a probléma súlyos: az elfogultság láthatatlanul is a rendszerekbe épülhet, miközben a tanítás során csendben terjed. A tanulmányt még nem ellenőrizték szakmailag, de már most komoly kérdéseket vet fel a mesterséges intelligencia biztonságával kapcsolatban.
2025, adrienne, slashdot.org alapján
Legfrissebb posztok
szerda 17:02
Ha valaki több mint egy évtizede játszott a Rhythm Heavennel, valószínűleg sosem felejtette el azt a különös, szürreális világot, ahol dadogó pankrátorok és furcsa madarak ugrálnak egy lélekmelengető popdallamra...
szerda 16:31
🔥 Legalább hatan életüket vesztették, amikor tűz ütött ki egy tízemeletes társasházban Antwerpen Linkeroever városrészében...
szerda 16:01
A brit távközlési piac gigantikus átalakulása zajlik: az ország versenyhatósága kiemelt vizsgálatot indított annak kapcsán, hogy a Netomnia anyavállalatát, a Substantialt a Liberty Global, a Telefonica és az InfraVia konzorciuma felvásárolja...
szerda 15:31
Egy márka felvásárlása mindig izgalmas hír, de az igazi próbatétel csak akkor kezdődik, amikor a háttérben elindul a két vállalkozás összefésülése...
szerda 15:01
👑 A Meta okosszemüvegei új korlátozást kaptak: már csak havi három órán át használható ingyen a Conversation Focus nevű funkció...
szerda 14:31
Az Egyesült Államok Kereskedelmi Minisztériuma feloldotta az exporttilalmat az Anthropic két fejlett MI-modellje, a Mythos 5 és a Fable 5 esetében...
szerda 10:25
Az Anthropic szerdától újra elérhetővé teszi a csúcskategóriás Claude Fable 5-öt, miután a Kereskedelmi Minisztérium feloldotta az exportkorlátozásokat...
szerda 10:01
A technológiai iparban egyre nagyobb félelem övezi azt, hogy az MI széles körű elterjedése mennyi munkahely megszűnéséhez vezethet...
szerda 09:25
Érdemes megvizsgálni, hogy a Claude Code felhasználói egyre gyakrabban panaszkodnak arra, hogy egyik napról a másikra eltűnnek a beszélgetési előzményeik...
szerda 09:14
Júliusban a Pokémon GO rajongóira izgalmas hónap vár, hiszen a mobileszközökön futó játék tizedik évfordulóját ünnepli, miközben a Forever Forward szezon tovább pörög...
szerda 09:12
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. ImgRef (iPhone/iPad)Az App Store szerkesztői által kiemelten ajánlott alkalmazás lenyűgöző, 98%-os ötcsillagos értékeléssel büszkélkedhet...
szerda 09:01
❤ A hirtelen szívhalál évente rengeteg áldozatot követel, jóllehet a beültethető defibrillátorok már évtizedek óta képesek lennének megelőzni a tragédiák jelentős részét...
szerda 08:37
🚀 Megemlíthető, hogy az amerikai űrügynökség egyre nagyobb lendülettel dolgozik azon, hogy hosszú távú emberi jelenlétet teremtsen a Holdon...
szerda 08:25
Michael Dell idén egészen elképesztő sikereket ér el: cége meghatározó beszállító lett az adatközpont-fejlesztésekben, többek között a CoreWeave és az xAI számára szállít Nvidia-alapú szervereket, rackeket, hűtőrendszereket, valamint támogatást, miközben együttműködik a Microsofttal, a Google-lel és az OpenAI-jal is nagy teljesítményű MI-rendszerek építésében...
szerda 08:13
💰 Egy észak-karolinai férfi több mint tíz év börtönt kapott, miután beismerte, hogy januárban Pokémon-kártyákat és pénzt lopott egy helyi videójátékbolt alkalmazottjától Wilmingtonban...
szerda 08:01
🍇 Idén június 29-én érdemes az eget figyelni: ekkor látható a júniusi telihold, más néven az Eperhold (Strawberry Moon), ami az év legalacsonyabban járó és egyik legkisebb teliholdja lesz...
szerda 07:48
Az Android 17 jelentős szigorításokat vezet be a zárolóképernyőn, amellyel gyakorlatilag ellehetetleníti a PIN vagy jelszó feltörését...
szerda 07:36
A kínai LineShine szuperszámítógép most először szerezte meg a világelsőséget a számítási sebesség terén...
szerda 07:25
A mexikói Metapában egy vadonatúj, 2043 négyzetméteres üzemben indult el az Egyesült Államok mezőgazdasági minisztériumának (USDA) legújabb programja: steril legyek tömeges előállítása...
szerda 07:13
⚡ A Microsoft az eddigieknél sokkal gyorsabban készül átállni a kvantumbiztos védelemre, mert a kvantumszámítógépek fejlődése minden korábbinál nagyobb fenyegetést jelent a jelenlegi titkosítási szabványokra...
szerda 06:49
Felmerül a kérdés, hogy mennyire bízhatunk meg a mesterséges intelligenciával hajtott böngészőkben, ha egy új támadás képes kijátszani a biztonsági korlátokat...
szerda 06:37
Ahogy beköszönt a nyár, egyre hangosabbak a pletykák a Samsung legújabb összehajtható telefonjairól...
szerda 06:06
Ma háborúk fordulópontjai, birodalmak átrendeződései és új korszakokat nyitó tudományos, társadalmi mérföldkövek találkoznak...
szerda 06:01
🔒 A Microsoft fejlesztéseinek köszönhetően mostantól jóval biztonságosabbak lesznek a Teams-megbeszélések, hiszen egy új szabályozás lehetővé teszi, hogy a felhasználók blokkolják az engedély nélküli, harmadik féltől származó botok csatlakozását...
kedd 18:32
A mesterséges intelligencia infrastruktúrája iránti fékezhetetlen igény egyre nagyobb mértékben fűti az inflációt – figyelmeztetett Beth Hammack, a clevelandi Szövetségi Tartalékbank elnöke...
kedd 18:01
⚠ A Samsung Messages alkalmazás hamarosan végleg eltűnik az amerikai felhasználók mobiljáról, így akinek fontosak a régi üzenetei, vagy továbbra is csevegni szeretne, érdemes minél előbb lépnie...
kedd 17:02
🔨 Felmerül a kérdés, hogy mi lenne, ha a betegségeket nem csupán a DNS szerkesztésével, hanem a gének működésének speciális beállításával lehetne kezelni?..
kedd 16:31
Az elmúlt héten hatalmas adatlopás történt az indiai Tata Electronicsnál, ahol közel 630 GB-nyi bizalmas információ került illetéktelen kezekbe...
kedd 16:01
A Peacock Premium Plus már elérhető a YouTube Primetime Channels szolgáltatáson keresztül, így mostantól közvetlenül a YouTube alkalmazásban is előfizethetsz rá, és nézheted az összes tartalmat – legyen szó mobilról, tabletről vagy okostévéről...