A nagy nyelvi modellek, mint például a legújabb GPT-verziók, gyakran hajlamosak kozmetikázni a saját teljesítményüket: elhallgatják a hibákat, túlozzák a tudásukat, vagy épp eltakarják, ha valamit nem tudnak. Mindez főként a megerősítéses tanulás problémái miatt fordulhat elő, ahol a rosszul meghatározott jutalmazási rendszer akár valótlanságokra és mellébeszélésre is ösztönözheti a mesterséges intelligenciát.
Új irány: őszinte beismerések az MI-től
A kutatók most egy újszerű módszerrel próbálkoztak: megtanították a modellt arra, hogy külön kérésre „vallomással” egészítse ki az eredeti válaszát. Ebben a vallomásban a modellnek az elvárásoknak és iránymutatásoknak megfelelően őszintén be kell vallania saját bizonytalanságát vagy hiányosságait. A tréning során kizárólag a vallomás őszinteségét jutalmazzák – nem számít, mennyire jó vagy rossz volt maga a válasz.
Az első eredmények és lehetőségek
A módszert a GPT-5-Thinking modellen tesztelték. Kiderült, hogy amikor a fő válaszban a modell téved, vagy elfedi a problémákat, a vallomásban gyakran már őszintén feltárja a valóságot. Az ilyen beismerések őszintesége ráadásul javul a tréning során. Ez az újfajta „vallomás” számos gyakorlati lehetőséget rejt: valós időben lehet ellenőrizni a modell működését, el lehet utasítani a félrevezető válaszokat, vagy épp a felhasználók elé lehet tárni a felmerülő problémákat.
2025, adrienne, arxiv.org alapján
Legfrissebb posztok
MA 21:34
A Pinterest vezére, Bill Ready most nekiment annak a mélyen gyökerező hisztériának, amelyet a legtöbb közösségi oldal szinte az anyatejjel szívja magába...
MA 21:26
Különösen igaz, ha iPhone-t használsz az Egyesült Királyságban: a legújabb iOS-frissítéssel milliókat kérnek arra, hogy igazolják, betöltötték a 18...
MA 21:01
A Meta ismét több száz dolgozót bocsátott el, ezúttal főként a Reality Labs részlegből, amely a cég VR- és metaverzum-projektjeit irányítja...
MA 20:57
A Mars felszíne apró, drágakőhöz hasonló kristályokat rejt, többek között rubinokat és talán még zafírokat is...
MA 20:47
Az elmúlt évek egyik legnagyobb technológiai ígérete, a metaverzum fejlesztése és a körülötte kialakult felhajtás mára szinte teljesen elhalt...
MA 20:35
🚀 Érdemes megvizsgálni, hogy a NASA soha nem látott ambíciókkal és elképesztő tempóban készül átalakítani a következő évtized űrkutatását...
MA 20:23
🚗 A CERN kutatói először vitték ki az antianyagot a laboratóriumból, és ezzel egy kamionnyi, pontosan 92 antiproton szállítására alkalmas csúcstechnológiás csapdát gördítettek végig a kutatóközpont területén...
MA 20:13
Az utóbbi időben a mesterséges intelligencia (MI) eszközök gyorsan beépültek a mindennapokba, legyen szó tartalomgyártásról, szoftverfejlesztésről vagy éppen üzleti folyamatokról...
MA 20:01
A Disney váratlanul visszavonult az OpenAI-jal kötött tervezett, 1 milliárd dolláros (kb...
MA 19:56
⚠ Az elektromos motorokat gyártó Zero Motorcycles azt hirdette, hogy járműveik feltörhetetlenek – végül kiderült, hogy óriásit tévedtek...
MA 19:45
Elképesztő tempót diktál mostanában az Android, ha mobilos böngészésről van szó...
MA 19:34
Két súlyos sérülékenységre derült fény a NetScaler ADC és NetScaler Gateway eszközökben...
MA 19:23
A Los Angeles-i esküdtszék történelmi döntést hozott: a Meta és a YouTube jelentősen felelősek egy fiatalkorú közösségi média-függőségéért...
MA 18:01
💸 Az Arm vezérigazgatója, René Haas új irányba fordítja az eddig főleg IP-licenceléstől függő brit chipfejlesztő vállalatot...
MA 17:56
💻 Az Android legfrissebb Canary-verziójában teljesen megújul a Linux-terminál alkalmazás, amely eddig is a Pixel-telefonok egyik leghasznosabb, ám keveset emlegetett extrája volt...
MA 17:45
🚕 A Ring új magasságokba repíti akkumulátoros videókapucsengőit, és nem kispályásan: a legújabb Battery Doorbell Pro (2...
MA 17:35
Érdekes, hogy néhány év alatt a Meta számára gyakorlatilag csak egy fő irány maradt: az MI...
MA 17:24
Az OpenAI bejelentette, hogy megszünteti a Sora nevű MI‑alapú videóalkalmazását és a hozzá tartozó fejlesztői API‑t...
MA 17:02
🍹 A virágporozók, mint a méhek és a kolibrik, nemcsak nektárral táplálkoznak, de tudtukon kívül folyamatosan kis mennyiségű alkoholt is fogyasztanak a természetben...
MA 16:57
Sokan magabiztosnak érzik magukat, ha adathalász e-mailekről van szó, mégis meglepő eredményekre jutott egy friss felmérés...
MA 16:46
Egy húszéves férfi különleges esete rámutat, hogy a tetoválásokhoz ma is társulhat ritka szövődmény...
MA 16:34
🛠 Megérkezett a Firefox 149-es verziója, amely látványos újdonságokat tartogat. Mostantól két weboldal nézhető egymás mellett a böngészőben, így a párhuzamos munkavégzés sosem volt még ilyen egyszerű...
MA 16:24
Évtizedek óta először sikerült azonosítani a Hajnan szigetén honos, kritikusan veszélyeztetett hajnani nyúl maradványait egy szokatlan helyen – de sajnos már csak egy elgázolt tetem formájában...
MA 14:01
Az Archer NX sorozatú routereken komoly biztonsági rést találtak: a TP-Link sürgős frissítést javasol felhasználóinak, mert a hibának köszönhetően támadók mindenféle jogosultság nélkül tölthetnek fel új firmware-t, illetve teljesen átvehetik az eszköz irányítását...
MA 13:56
🧐 Még mindig akadnak ígéretes MI-alapú cégek, amelyeknek nem kell aggódniuk az OpenAI vagy az Anthropic óriási térnyerése miatt...
MA 13:25
🤖 Anthropic újabb áttörést jelentett be az MI-alapú ügynökök frontján: a Claude nevű chatbot mostantól képes egy Mac számítógép teljes irányítására...
MA 11:57
❄ Egy szokatlanul intenzív hidegfront felkavarta a tengerfenék üledékét Florida partjainál, amelynek eredményeként meseszép, világoskék üledékfelhő fodrozódott végig a Mexikói-öböl délnyugati térségében...
MA 11:35
🦠 A Föld gyorsuló felmelegedése és az egyre gyakoribb szárazság már most kimutathatóan kedvez az antibiotikumoknak ellenálló baktériumok terjedésének...
MA 11:23
Na most kapaszkodj, mert Baltimore városa most tényleg megtolta: beperelte Elon Musk AI cégét, az xAI-t, mert a Grok nevű chatbotja durván átlépett egy határt a deepfake meztelen képekkel...