Sannheten om KI-hallusinasjoner: Den er programmert til å lyve fremfor å innrømme uvitenhet

Har OpenAI løst KI-ens største problem? Svaret er enklere enn du tror.

Har du noen gang spurt en KI-chatbot om noe, og fått et svar som høres utrolig overbevisende ut, men som viser seg å være helt feil? Dette kalles en «hallusinasjon», og det er et av de største problemene med kunstig intelligens i dag. Det undergraver tilliten vår til teknologien.

Men nå har OpenAI, selskapet bak ChatGPT, sluppet en forskningsrapport som kan ha funnet både årsaken og løsningen. Og når du hører forklaringen, vil du sannsynligvis tenke: «Selvfølgelig! Hvorfor har ingen tenkt på det før?»

Hvorfor «lyver» kunstig intelligens?

Man skulle kanskje tro at KI-hallusinasjoner skyldes feil i de enorme mengdene med data de trenes på. Og ja, det finnes selvsagt feil i treningsdataene. Men ifølge OpenAI er ikke det hovedårsaken. Selv med et helt perfekt datasett, ville problemet fortsatt eksistert.

Roten til problemet ligger i hvordan modellene blir trent og belønnet.

For å forstå dette, kan vi bruke en enkel analogi: en flervalgsoppgave på skolen.

Se for deg at du ikke kan svaret på et spørsmål. Du har fire alternativer. Hvis du lar feltet stå tomt, får du garantert null poeng. Men hvis du gjetter, har du 25 % sjanse til å få riktig og få poeng. Hva gjør du? De fleste gjetter, fordi det maksimerer sjansen for en høyere poengsum.

KI-modeller gjør akkurat det samme.

Under trening blir de belønnet for å gi riktige svar, men de får ingen belønning – eller straff – for å si «Jeg vet ikke». Et feil svar og et «Jeg vet ikke»-svar blir ofte behandlet likt: null poeng. Derfor tar modellen en sjanse og «bløffer» frem et plausibelt, men kanskje helt feil, svar. Den prøver å gi et spesifikt og selvsikkert svar (som «30. september») i stedet for et vagt et (som «en gang på høsten»), fordi spesifikke svar er det som gir poeng hvis de treffer.

Lettere å sjekke enn å skape

Forskerne påpeker også noe annet interessant: Det er mye vanskeligere å generere det riktige svaret enn å verifisere om et gitt svar er riktig.

Tenk på det selv. Hvis noen gir deg et svar, er det ofte lett å se om det er feil. Men å komme på det riktige svaret selv, ut av det blå, er mye vanskeligere. Det finnes uendelig mange måter å svare feil på, men ofte bare én måte å svare riktig på. KI-modellen står overfor den vanskelige oppgaven med å finne den ene rette nålen i en gigantisk høystakk av feil svar.

Løsningen: Belønn ærlighet!

Så, hvis problemet er at vi belønner KI-en for å gjette, er løsningen ganske åpenbar: Vi må endre spillereglene.

Forslaget fra OpenAI er enkelt og genialt:

  1. Gi +1 poeng for et riktig svar.
  2. Gi 0 poeng for å svare «Jeg vet ikke».
  3. Gi minuspoeng (f.eks. -1) for et feil svar (en hallusinasjon).

Med dette systemet lærer KI-modellen raskt at det er mye tryggere å innrømme at den ikke vet svaret, enn å risikere straffen for å gjette feil. Den blir «kalibrert» til å være ærlig om sin egen usikkerhet. Hvis den bare er 50 % sikker på et svar, vil den forstå at sjansen for å få minuspoeng er for stor.

Fremtiden er ærligere

Tegn tyder på at dette allerede er på vei. Nylig dukket det opp eksempler på nettet hvor en fremtidig versjon av GPT-modellen svarte på et komplisert spørsmål med: «Kort svar: Jeg vet ikke, og jeg kan ikke finne et pålitelig svar.»

De fleste av oss er nok enige: Vi vil mye heller ha et slikt ærlig svar enn en selvsikker løgn.

Så, KI-hallusinasjoner er ikke en uunngåelig feil ved teknologien. De er et symptom på hvordan vi har lært den opp. Ved å justere belønningssystemet og lære KI-en verdien av å si «Jeg vet ikke», kan vi gjøre fremtidens KI-assistenter mye mer pålitelige og troverdige.

Kilde: https://openai.com/index/why-language-models-hallucinate/