Az újonnan tervezett, keresésre képes MI-modellekkel kapcsolatban komoly aggályok merültek fel: teszteredményeik könnyen torzulhatnak, mert ezek a rendszerek gyakran közvetlenül a netről keresik ki a helyes válaszokat, ahelyett, hogy valódi érvelési folyamat révén jutnának megoldásra. A jelenséget „keresési adatfertőzésnek” nevezik, amikor az MI a kiértékelés során épp azokhoz az adatbázisokhoz jut el, ahol a tesztkérdések valódi válaszai is elérhetők.
Keresés vagy tudás?
A legtöbb MI-modellt eredetileg korlátozott időintervallumra vonatkozó adatokkal tanítják, így a friss információkhoz nincs hozzáférésük. Ennek áthidalására több nagy cég – például az Anthropic, a Google, az OpenAI vagy a Perplexity – már keresési képességgel (online böngészéssel) ruházta fel saját MI-it, hogy az aktuális eseményekre is reagálni tudjanak.
Adatfertőzés a tesztelésnél
A Scale AI kutatói három Perplexity ügynököt – Sonar Pro, Sonar Reasoning Pro és Sonar Deep Research – vizsgáltak, és azt találták, hogy a keresésre képes MI-ügynökök nagyjából az esetek 3 százalékában közvetlenül a HuggingFace oldalán találják meg a tesztkérdések hivatalos válaszait. Amikor megvonták tőlük a HuggingFace elérési lehetőségét, az ügynökök pontossága ezen a területen mintegy 15 százalékkal visszaesett. Ráadásul más forrásból is származhat adatfertőzés.
Bár a 3% elsőre kevésnek tűnik, egyes teszteknél ez is döntő lehet – főleg, ha már 1% változás is átrendezheti a rangsort. Ráadásul egyre nyilvánvalóbb, hogy bármely online eléréssel rendelkező MI-modell értékelése megkérdőjelezhető. Egy kínai kutatás szerint a jelenlegi MI-tesztek jelentős része csalható, elfogult vagy eleve hibás – így a tesztek alapkészlete is reformra szorul.
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Inkflow Plus Visual Notebook (iPhone/iPad)Az Inkflow egy alkalmazás, amely a vizuális gondolkodást támogatja...
Viharos nap a történelemben: hadjáratok, csaták és forradalmak formálták a világot, miközben bírósági döntések és politikai fordulatok új korszakokat nyitottak...
🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...
A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...
🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...
🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...
Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...
Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...
Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...
A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...
Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...
A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...