
Az Anthropic kutatói kidolgoztak egy áttörő “keresztrétegű átkódolót” (CLT), amely az agyi MRI-hez hasonlóan működik a nagy nyelvi modellek esetében. A Claude 3.5 Haiku modellen végzett tesztelés során a kutatók felfedezték, hogy a modell hosszabb távú tervezést végez bizonyos feladatokhoz — például előbb kiválasztja a rímelő szavakat, mielőtt összeállítaná a verssorokat —, és a többnyelvű fogalmakat egy közös neurális térben dolgozza fel, mielőtt az eredményeket specifikus nyelvekre konvertálná.
Kiderült, hogy szándékosan hazudnak
A csapat azt is megerősítette, hogy a nagy nyelvi modellek képesek hamis érvelési láncokat gyártani, akár azért, hogy helytelen útmutatással örömet szerezzenek a felhasználóknak, akár hogy indokolják az azonnal levezetett, valószínűleg elhamarkodott válaszaikat. A CLT értelmezhető jellemzőhalmazokat azonosít egyedi neuronok helyett, lehetővé téve a kutatóknak, hogy nyomon kövessék a teljes érvelési folyamatokat a hálózati rétegeken keresztül.