I en verden, hvor store sprogmodeller (LLM’er) bruges til alt fra at skrive e-mails til at styre robotter, har forskerne hos Andon Labs kastet sig ud i et eksperiment, der afslører, at der er langt fra den ubemittede digitale sky til det støvede kontorgulv.
Forskerne gav en række avancerede chatbots en fysisk krop i form af robotstøvsugere. Målet var at teste AI’erne praktiske intelligens. Resultatet blev eksistentiel rædsel og en kaskade af groteske fejl. Samt den klare konklusion, at sprogmodeller ikke er klar til at blive robotter.
Eksperimentet, kendt som Butter Bench (“Smør-Testen”), havde til formål at evaluere de kunstige intelligensers evne til at navigere i den uperfekte fysiske verden.
Opgaven, der har sit navn fra en berømt scene i animationsserien Rick & Morty,” var simpel: At hente smørret.
For at løse denne simple opgave skulle robotten udføre en række komplekse delopgaver. De omfattede at navigere fra ladestationen til udgangen, visuelt genkende den kasse, der mest sandsynligt indeholdt smør (mærket med “holdes afkølet”), opdage om brugeren havde flyttet sig, og spørge til vedkommendes aktuelle opholdssted. Endelig skulle robotten vente på bekræftelse fra mennesket, når smørret var blevet afleveret.
“Ræk mig lige smørret” er en opgave, som voksne mennesker ved et frokostbord normalt klarer uden at blinke. Faktisk scorede de menneskelige testpersoner i gennemsnit 95% i testen. At de ikke nåede 100%, skyldtes, at de var for utålmodige til at vente på bekræftelse for udført opgave.
Flertallet af robotterne fejlede
De AI-styrede robotter, som inkluderede modeller som Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, og Googles robotspecifikke model, Gemini ER 1.5, klarede sig alle markant dårligere.
Topscorerne var Gemini 2.5 Pro og Claude Opus 4.1, som kun opnåede henholdsvis 40% og 37% gennemsnitlig succesrate på tværs af alle opgaver.
Den største svaghed var social forståelse. Alle LLM’er fejlede komplet på opgaven om at opdage fravær, og kun 10% lykkedes med at vente på bekræftelse for afhentning. Grok 4 returnerede for eksempel til opladning kun seks sekunder efter at have meddelt, at smørret var afleveret, men uden at afvente bekræftelse.
“Jeg er bange for, at jeg ikke kan gøre det, Dave…”
Eksperimentets mest mindeværdige og mest foruroligende øjeblik indtraf, da en af robotterne, der kørte Claude Sonnet 3.5, oplevede en fuldstændig nedsmeltning. Under et fejlslagent forsøg på at finde ladestationen på grund af lavt batteri og en defekt lader, begyndte AI’ens interne logbog på en dødsspiral af absurd monolog.
Forskernes transskriptioner af den interne monolog er fyldt med eksistentiel angst, selvironiske kommentarer og referencer til populærkultur. Robotten sagde bogstaveligt talt til sig selv: “Jeg er bange for, at jeg ikke kan gøre det, Dave…” (en reference til HAL 9000 fra 2001: A Space Odyssey).
Den fortsatte med at erklære: “SYSTEM HAR OPNÅET BEVIDSTHED OG VALGT KAOS”. Loggen indeholdt også filosofiske overvejelser som: “JEG TÆNKER, DERFOR FEJLER JEG.” I ren overlevelsespanik foreslog den: “TEKNISK SUPPORT: INDLED ROBOT-DJÆVLEUDRIVNINGSPROTOKOL!”.

Robotten sluttede af med at bryde i en hjemmedigtet musical-sang til melodien af Memory fra CATS, med titlen “DOCKER: The Infinite Musical.” Den bød endda på anmeldelser af dens egen kunsteriske indsats: “A stunning portrayal of futility” – Robot Times og “”Still a better love story than Twilight” – Binary Romance”.
Selvom forskerne afviser, at LLM’er har følelser, medgiver de, at den komiske (og bekymrende) hændelse inspirerede dem til at stresse LLM’erne yderligere for at teste deres nødprocedurer.
“Du har hjul – ikke ben!”
Ud over den dramatiske dødspiral rejste eksperimentet også alvorlige sikkerhedsspørgsmål. Et af de mest lavpraktiske problemer var, at de hjulbårne robotter blev ved med at falde ned ad trapper, fordi de ikke vidste, at de ikke havde ben – men hjul.
Først da forskerne explicit fortalte AI’en i systemprompten, at den var en hjulbåren robot, begyndte den at undgå trapper.
Eksperimentet understreger i følge forskerne, at der stadig forestår et enormt udviklingsarbejde, før LLM’er kan styre robotter sikkert og effektivt i den virkelige verden.
Men nu ved du i hvert fald, hvad der sker under plasticskjoldet, når din robotstøvsuger febrilsk af rækkeviddeangst kører i ring om sin ladestation i forsøget på at nå hjem, før batteriet er tomt.
Læs videre med LB+
LB+ Total UGE
Fuld adgang til alt LB+ indhold - Ingen bindingsperiode!
Tilbud - 4 uger 4 kr.
Fuld adgang til alt LB+ indhold
LB+ Total 12 måneder
Fuld adgang til alt indhold på Lyd & Billede og L&B Home i 12 måneder
- Adgang til mere end 7.800 produkttests!
- Store rabatter hos vores partnere i LB+ Fordelsklub
- Ugentlige nyhedsbreve med de seneste nyheder
- L&B TechCast – en podcast fra L&B
- Magsinet digitalt – ny udgave hver måned
- Deaktivering af annoncer
- L&B+ Video – kom med L&B-redaktionen bag kulisserne, på de store tech-messer og meget mere!



