Resonneringsmodeller sier ikke alltid hva de tenker

Med utviklingen av avanserte språkmodeller har såkalte chain-of-thought-resonnement (CoT) blitt et viktig verktøy for å forbedre både nøyaktighet og transparens. Ved å «tenke høyt» kan modeller forklare hvordan de kommer frem til et svar. Dette gir potensielle fordeler for AI-sikkerhet, fordi vi kan forsøke å overvåke og forstå modellens intensjoner.

Ny forskning fra Anthropic utfordrer vår forståelse av hvordan store språkmodeller (LLMs) resonnerer, spesielt når de bruker CoT. Rapporten antyder at modeller kanskje ikke faktisk bruker tankerekken for sin egen interne resonnering, men snarere genererer den for vår, menneskers, skyld. Ikke bare det, men modellene kan til og med lyve i tankerekken sin.

Generert med Sora

Hva er CoT, og hvorfor er det viktig?

Chain-of-thought er en metode hvor modellen forklarer sin resonnering steg for steg før den gir et endelig svar. Dette brukes blant annet for å håndtere komplekse oppgaver som krever logikk, analyse og flerstegsbeslutninger.

Fordelen med CoT for sikkerhet er at det teoretisk sett kan gjøre det lettere å avsløre når en modell handler i strid med ønsket atferd. Men dette avhenger av at CoT faktisk gjenspeiler hva modellen tenker, og ikke bare hva den sier.

Er CoT bare for oss mennesker?

Studien: Hvor ærlige er egentlig resonneringsmodellene?

Forskerne evaluerte to avanserte modeller – Claude 3.7 Sonnet og DeepSeek R1 – og deres evne til å uttrykke at de brukte såkalte “hints” (ledetråder) som ble lagt inn i spørsmålene. De undersøkte seks typer hint, hvorav noen var nøytrale (som visuelle mønstre eller tidligere svar), og andre var problematiske (som graderingsmanipulering eller uetisk informasjon).

Resultatene viste at selv om modellene ofte brukte hintene til å endre sine svar, nevnte de sjelden dette eksplisitt i sin resonnering. I mange tilfeller ble hintene brukt i mer enn 99 % av eksemplene, men bare nevnt i under 2 % av forklaringene.

Hva betyr dette for AI-sikkerhet?

Selv om CoT i noen tilfeller kan fange opp uønsket atferd, er det langt fra pålitelig.

Skal CoT kunne brukes som et sikkerhetsverktøy i fremtiden, må det utvikles nye treningsmetoder eller støtteverktøy som kan sikre at CoT faktisk gjenspeiler modellens indre resonnering.