Elon Musk er ikke kjent for å være beskjeden med sine spådommer. Hans visjon for Teslas humanoide robot, Optimus, er intet unntak. Han snakker om en fremtid med «titusenvis av milliarder» av roboter og har som mål å produsere én million enheter allerede innen 2030.
For mange høres dette ut som ren science fiction. Utviklingen av selvkjørende biler har vist oss hvor utrolig komplisert det er å trene en KI til å mestre den virkelige verden. Hvordan skal Tesla da klare å trene en robot til å utføre et nesten uendelig antall oppgaver, fra å brette klær til å jobbe i en fabrikk?
I et nylig intervju avslørte Musk kjernen i strategien, og den er forbausende lik den revolusjonen som ga Teslas biler et forsprang.
Gjennombruddet: fra menneskelig instruksjon til visuell læring
I dag trenes Optimus på det Musk kaller en «primitiv» måte. En person iført en spesiell drakt (mocap suit) utfører enkle oppgaver som å plukke opp en gjenstand eller åpne en dør. Roboten observerer og forsøker å kopiere bevegelsene. Dette er en effektiv måte å «sparke i gang» intelligensen på, men det er en ekstremt treg og lite skalerbar metode. Det er umulig å manuelt programmere eller demonstrere alle tenkelige oppgaver en robot kan møte.
Det er her det virkelige gjennombruddet kommer inn. Musk peker på et «betydelig terskelgjennombrudd» som vil endre alt: evnen til å lære ved å se på video.
«Hvis Optimus kan se på videoer, YouTube-videoer eller instruksjonsvideoer… og basert på den videoen, akkurat som et menneske, lære hvordan man gjør den tingen, da har du en dramatisk utvidelse av oppgaver,» forklarer Musk.
Med andre ord, i stedet for å være avhengig av en ingeniør i en mocap-drakt, kan Optimus lære å skru sammen et IKEA-møbel ved å se på den samme YouTube-videoen som deg. Den kan lære å lage en omelett, sortere post eller bytte et dekk, simpelthen ved å analysere video av hvordan mennesker gjør det.
En velprøvd oppskrift: parallellen til selvkjørende biler
Hvis denne strategien høres kjent ut, er det fordi Tesla allerede har gjort dette med stor suksess.
I de tidlige dagene ble Teslas Full Self-Driving (FSD) trent på begrensede datasett og i simulerte miljøer. Fremskrittet var sakte. Revolusjonen kom da Tesla begynte å trene FSD-systemet på millioner av timer med ekte videodata fra sin egen flåte av biler på veien. Ved å analysere hvordan millioner av menneskelige sjåfører navigerer i kompleks trafikk, lærte KI-en å forstå verden på et helt nytt nivå.
Denne overgangen fra begrenset, manuell data til en massiv, visuell datastrøm er nøyaktig den samme strategien Musk nå planlegger for Optimus. Datakilden endres fra veien til internett – en nesten uendelig database med visuelle instruksjoner for enhver tenkelig oppgave.
Neste steg: roboten som leker som et barn
Når Optimus har mestret grunnleggende funksjoner ved å se på videoer, er neste steg det Musk kaller «self-play». Roboten vil bli plassert i et rom med gjenstander – som et barn med leker – og få i oppgave å løse problemer på egen hånd. Ved å prøve og feile, for eksempel med å putte en sirkel i det runde hullet og en firkant i det firkantede, vil den lære gjennom erfaring, styrt av en «belønningsfunksjon» for å lykkes.
Konklusjon: fremtiden er visuell
Musks ambisiøse tidslinje for Optimus virker plutselig mer realistisk når man forstår strategien. Nøkkelen ligger ikke i å programmere hver eneste bevegelse, men i å bygge en KI som kan lære visuelt, akkurat som oss.
Ved å gjenbruke den velprøvde oppskriften fra utviklingen av selvkjørende biler, har Tesla et veikart som ingen andre konkurrenter kan matche. Veien er kanskje lang, og det krever ytterligere fremskritt innen KI, men strategien er klar.
Fremtidens roboter blir ikke programmert – de blir trent ved å se på den samme verdenen som oss.
