Az újonnan tervezett, keresésre képes MI-modellekkel kapcsolatban komoly aggályok merültek fel: teszteredményeik könnyen torzulhatnak, mert ezek a rendszerek gyakran közvetlenül a netről keresik ki a helyes válaszokat, ahelyett, hogy valódi érvelési folyamat révén jutnának megoldásra. A jelenséget „keresési adatfertőzésnek” nevezik, amikor az MI a kiértékelés során épp azokhoz az adatbázisokhoz jut el, ahol a tesztkérdések valódi válaszai is elérhetők.
Keresés vagy tudás?
A legtöbb MI-modellt eredetileg korlátozott időintervallumra vonatkozó adatokkal tanítják, így a friss információkhoz nincs hozzáférésük. Ennek áthidalására több nagy cég – például az Anthropic, a Google, az OpenAI vagy a Perplexity – már keresési képességgel (online böngészéssel) ruházta fel saját MI-it, hogy az aktuális eseményekre is reagálni tudjanak.
Adatfertőzés a tesztelésnél
A Scale AI kutatói három Perplexity ügynököt – Sonar Pro, Sonar Reasoning Pro és Sonar Deep Research – vizsgáltak, és azt találták, hogy a keresésre képes MI-ügynökök nagyjából az esetek 3 százalékában közvetlenül a HuggingFace oldalán találják meg a tesztkérdések hivatalos válaszait. Amikor megvonták tőlük a HuggingFace elérési lehetőségét, az ügynökök pontossága ezen a területen mintegy 15 százalékkal visszaesett. Ráadásul más forrásból is származhat adatfertőzés.
Bár a 3% elsőre kevésnek tűnik, egyes teszteknél ez is döntő lehet – főleg, ha már 1% változás is átrendezheti a rangsort. Ráadásul egyre nyilvánvalóbb, hogy bármely online eléréssel rendelkező MI-modell értékelése megkérdőjelezhető. Egy kínai kutatás szerint a jelenlegi MI-tesztek jelentős része csalható, elfogult vagy eleve hibás – így a tesztek alapkészlete is reformra szorul.
🍴 Az Eli Lilly hamarosan piacra dobja új, szájon át szedhető elhízás elleni gyógyszerét, az orforglipront, amely a szakértők szerint átalakíthatja az elhízás kezelésének piacát...
💡 A Samsung Galaxy S26 Ultra előzetes naplófájljai alapján úgy tűnik, hogy a cég végre támogatja az Android Linux-terminál funkcióját, amelyre tavaly sokan hiába vártak a Galaxy S25 Ultra esetében...
Egy volt Google szoftvermérnököt bűnösnek találtak, miután ellopta a cég mesterséges intelligenciával kapcsolatos titkait, hogy két Kínában működő startup előnyhöz jusson – köztük egyet maga alapított...
A Z generáció magánya egyre súlyosbodik, az online kapcsolatok és a mesterséges intelligencia (MI)-csevegőrobotok térhódítása pedig új kihívásokat hoz magával...
😷 Dél-Karolinában már közel 790-en, főként gyerekek, kapták el a kanyarót, így a jelenlegi járvány lett az elmúlt évtizedek legnagyobbja az Egyesült Államokban...
🤖 A 2026-os adózási szezon igazán különlegesnek ígérkezik az Egyesült Államokban, hiszen az adóhatóság (IRS) a tömeges elbocsátások miatt kieső munkaerőt MI-vel pótolja...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Funny Kids Poems (iPhone/iPad)A Funny Kids Poems egy könnyed, interaktív könyv, amely kisgyermekek, főként 6 éves korig számára készült...
A Microsoft bejelentette, hogy az elavult NTLM hitelesítési protokollt alapértelmezetten letiltja a közelgő Windows-kiadásokban, mert a 30 éves rendszer számos biztonsági hibája folyamatos kockázatot jelent...
Érdemes megvizsgálni, mire számíthatunk a következő Galaxy Unpacked eseményen, amikor a Samsung bemutatja a legújabb Galaxy S26 szériát, valamint a többi újdonságot...
Ezen a napon háborúk, lázadások és mérföldkövek formálták a világot: Stalingradnál letette a fegyvert Paulus marsall, a Tet-offenzíva megrázta Vietnamot, és a Van Allen-öv felfedezése új korszakot nyitott az űrkutatásban...
🌊 Az éghajlatváltozás kapcsán a figyelem leggyakrabban a forrósodó hőmérsékletekre és az egyre gyakoribb szélsőséges időjárási jelenségekre irányul, de a tengerszint emelkedése is egyre nagyobb kihívások elé állítja a part menti településeket...
🔑 A Microsoft kijavította azt a bosszantó hibát, amely miatt a Microsoft 365-felhasználók december óta nem tudták megnyitni a titkosított e-maileket a klasszikus Outlookban...
Azok, akik rendszeresen későn fekszenek le, életük során nagyobb eséllyel számíthatnak rosszabb szív-egészségre és magasabb szívinfarktus- vagy stroke-kockázatra, különösen, ha nők...
🚀 Ebből következően érdemes megérteni, hogy a Hubble Űrtávcső három és fél évtizeddel indítása után is szinte páratlan módon tágítja a világegyetemről alkotott képünket, annak ellenére, hogy már régóta működik, és megjelentek a következő generációs utódai is...
🚧 Az Egyesült Államokban több ezer gát öregszik, és egyre súlyosabb károsodás jeleit mutatják, miközben egyre kevésbé képesek ellenállni a szélsőséges időjárási eseményeknek...
Lényeges, hogy a rakétaiparban továbbra sincs hiány meglepetésekből – legyen szó egy japán műhold katasztrófájáról, egy orosz csodahajtóműről vagy éppen Elon Musk következő nagy dobásáról...