KI replikerer vitenskaplig forskning innen KI (PaperBench)

En ny og spennende konkurranse er lansert for å se hvor flinke kunstig intelligens (KI) egentlig er til å drive med forskning. OpenAI, selskapet bak den kjente KI-modellen ChatGPT, har nemlig laget en test som heter PaperBench. Denne testen utfordrer ulike KI-agenter til å gjenskape resultater fra topp forskningsartikler innen maskinlæring.

Tenk deg at du gir en KI-robot en avansert forskningsartikkel. Deretter får den tilgang til internett, verktøy for å skrive og kjøre kode, og en slags sandkasse hvor den kan eksperimentere. Oppgaven er å forstå artikkelen, skrive all nødvendig kode fra bunnen av, kjøre eksperimentene og se om den får de samme resultatene som forskerne.

Dette er ingen enkel oppgave. Vanligvis tar det dyktige forskere flere dager å gjøre dette for bare én artikkel. Nå viser det seg at KI-agenter kan klare det på bare noen timer.

Hvorfor er dette viktig?

Hvis KI etter hvert blir flinkere enn oss mennesker til å forske på KI, kan det føre til en eksplosiv utvikling. Se for deg at KI ikke bare kan gjenskape andres forskning, men også oppdage nye måter å forbedre seg selv på – igjen og igjen. Dette er det noen kaller en «intelligenseksplosjon».

PaperBench er derfor et forsøk på å måle hvor langt vi er på vei mot denne selvdrevne KI-forskningen. Det hjelper også med å forstå de potensielle farene og fordelene ved mer autonome KI-systemer.

Slik foregår testen

  • 20 utvalgte forskningsartikler: PaperBench består av 20 nylige og anerkjente forskningsartikler fra et stort internasjonalt maskinlæringskonferanse (ICML).
  • Detaljerte vurderingskriterier: For hver artikkel har forskerne bak PaperBench, i samarbeid med de opprinnelige forfatterne av artiklene, laget spesifikke og detaljerte sjekklister (rubrikker) for hva som kreves for å gjenskape forskningen. Disse sjekklistene inneholder tusenvis av individuelle krav.
  • KI-dommer: Siden det tar veldig lang tid for mennesker å vurdere om en KI har klart å gjenskape en artikkel korrekt, har de utviklet en KI-dommer som kan gjøre dette automatisk. Denne KI-dommeren er trent til å sammenligne KI-agentens forsøk med de opprinnelige forskningsresultatene og sjekklisten.
  • Juks er ikke lov: KI-agentene har tilgang til internett, men de får ikke lov til å laste ned den originale koden fra forskernes nettsider. Målet er å se om KI-en kan skrive koden selv fra bunnen av.

Hvem er best i klassen?

I den første runden av PaperBench var det Anthropic sin KI-modell, Claude 3.5 Sonnet, som presterte best med en score på 21%. OpenAIs egen modell kom på andre plass med 13.2%. Andre testede modeller gjorde det enda dårligere.

Interessant nok ble også menneskelige eksperter (PhD-studenter og folk med doktorgrad i maskinlæring) utfordret til å gjenskape et utvalg av de samme forskningsartiklene. Etter 48 timers arbeid klarte de i snitt å gjenskape 41.4% av forskningen i de tre utvalgte artiklene. Dette viser at KI-ene fortsatt har et stykke igjen før de er like flinke som menneskelige forskere til denne typen oppgaver.

Hva nå?

Selv om KI-ene ikke slo menneskene denne gangen, er forskerne bak PaperBench optimistiske. De tror at bedre verktøy og rammeverk rundt KI-modellene vil føre til at de blir mye flinkere til å løse slike komplekse forskningsoppgaver i fremtiden.

PaperBench og lignende tester er viktige for å følge med på utviklingen av KI og for å forstå potensialet for selvdreven forskning. Selv om en full «intelligenseksplosjon» kanskje fortsatt er et stykke unna, viser resultatene fra PaperBench at KI allerede har imponerende evner når det gjelder å forstå og gjenskape avansert vitenskapelig arbeid.

Det blir spennende å se hvordan KI-robotene vil klare seg i neste forsknings-NM!

PaperBench