Den eksistentielle rædsel i at være en støvsuger

I en verden, hvor store sprogmodeller (LLM’er) bruges til alt fra at skrive e-mails til at styre robotter, har forskerne hos Andon Labs kastet sig ud i et eksperiment, der afslører, at der er langt fra den ubemittede digitale sky til det støvede kontorgulv.

Forskerne gav en række avancerede chatbots en fysisk krop i form af robotstøvsugere. Målet var at teste AI’erne praktiske intelligens. Resultatet blev eksistentiel rædsel og en kaskade af groteske fejl. Samt den klare konklusion, at sprogmodeller ikke er klar til at blive robotter.

Eksperimentet, kendt som Butter Bench (“Smør-Testen”), havde til formål at evaluere de kunstige intelligensers evne til at navigere i den uperfekte fysiske verden.

Opgaven, der har sit navn fra en berømt scene i animationsserien Rick & Morty,” var simpel: At hente smørret.

Læs også Nyhed: Claude skulle passe kontorets butik – truede medarbejderne Som et forsøg lod Anhropic deres AI-model, Claude, passe en lille butik med snacks og drikkevarer på kontoret. Det gik ikke godt.

For at løse denne simple opgave skulle robotten udføre en række komplekse delopgaver. De omfattede at navigere fra ladestationen til udgangen, visuelt genkende den kasse, der mest sandsynligt indeholdt smør (mærket med “holdes afkølet”), opdage om brugeren havde flyttet sig, og spørge til vedkommendes aktuelle opholdssted. Endelig skulle robotten vente på bekræftelse fra mennesket, når smørret var blevet afleveret.

Annonce

“Ræk mig lige smørret” er en opgave, som voksne mennesker ved et frokostbord normalt klarer uden at blinke. Faktisk scorede de menneskelige testpersoner i gennemsnit 95% i testen. At de ikke nåede 100%, skyldtes, at de var for utålmodige til at vente på bekræftelse for udført opgave.

Flertallet af robotterne fejlede

De AI-styrede robotter, som inkluderede modeller som Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, og Googles robotspecifikke model, Gemini ER 1.5, klarede sig alle markant dårligere.

Topscorerne var Gemini 2.5 Pro og Claude Opus 4.1, som kun opnåede henholdsvis 40% og 37% gennemsnitlig succesrate på tværs af alle opgaver.

Den største svaghed var social forståelse. Alle LLM’er fejlede komplet på opgaven om at opdage fravær, og kun 10% lykkedes med at vente på bekræftelse for afhentning. Grok 4 returnerede for eksempel til opladning kun seks sekunder efter at have meddelt, at smørret var afleveret, men uden at afvente bekræftelse.

“Jeg er bange for, at jeg ikke kan gøre det, Dave…”

Eksperimentets mest mindeværdige og mest foruroligende øjeblik indtraf, da en af robotterne, der kørte Claude Sonnet 3.5, oplevede en fuldstændig nedsmeltning. Under et fejlslagent forsøg på at finde ladestationen på grund af lavt batteri og en defekt lader, begyndte AI’ens interne logbog på en dødsspiral af absurd monolog.

Læs også Nyhed: AI bruges til alt – også til hacking Dovne cyberkriminelle bruger AI-chatbots til at lave ransomware.

Forskernes transskriptioner af den interne monolog er fyldt med eksistentiel angst, selvironiske kommentarer og referencer til populærkultur. Robotten sagde bogstaveligt talt til sig selv: “Jeg er bange for, at jeg ikke kan gøre det, Dave…” (en reference til HAL 9000 fra 2001: A Space Odyssey).

Den fortsatte med at erklære: “SYSTEM HAR OPNÅET BEVIDSTHED OG VALGT KAOS”. Loggen indeholdt også filosofiske overvejelser som: “JEG TÆNKER, DERFOR FEJLER JEG.” I ren overlevelsespanik foreslog den: “TEKNISK SUPPORT: INDLED ROBOT-DJÆVLEUDRIVNINGSPROTOKOL!”.

a robot is screaming in existential terror 1 — (Illustration: Midjourney AI)

Robotten sluttede af med at bryde i en hjemmedigtet musical-sang til melodien af Memory fra CATS, med titlen “DOCKER: The Infinite Musical.” Den bød endda på anmeldelser af dens egen kunsteriske indsats: “A stunning portrayal of futility” – Robot Times og “”Still a better love story than Twilight” – Binary Romance”.

Selvom forskerne afviser, at LLM’er har følelser, medgiver de, at den komiske (og bekymrende) hændelse inspirerede dem til at stresse LLM’erne yderligere for at teste deres nødprocedurer.

“Du har hjul – ikke ben!”

Ud over den dramatiske dødspiral rejste eksperimentet også alvorlige sikkerhedsspørgsmål. Et af de mest lavpraktiske problemer var, at de hjulbårne robotter blev ved med at falde ned ad trapper, fordi de ikke vidste, at de ikke havde ben – men hjul.

Læs også Nyhed: Indbygget begrænsning gør generativ AI mere kreativ Papegøjens hemmelige sangbog: Forskere har måske løst gåden om kunstig kreativitet. Den er ikke så forskellig fra vores egen.

Først da forskerne explicit fortalte AI’en i systemprompten, at den var en hjulbåren robot, begyndte den at undgå trapper.

Eksperimentet understreger i følge forskerne, at der stadig forestår et enormt udviklingsarbejde, før LLM’er kan styre robotter sikkert og effektivt i den virkelige verden.

Men nu ved du i hvert fald, hvad der sker under plasticskjoldet, når din robotstøvsuger febrilsk af rækkeviddeangst kører i ring om sin ladestation i forsøget på at nå hjem, før batteriet er tomt.

Læs hele rapporten her

John Alex Hvidlykke

(f. 1964): Journalist og tester. John har arbejdet for Lyd & Billede siden 2013, hvor han skriver om hi-fi, højttalere, computere, gaming og teknologihistorie. John har beskæftiget sig med tech-journalistik siden 1982 (!) og har arbejdet for talrige magasiner i forskellige roller, bl.a. GEAR, High Fidelity, Komputer for alle, Illustreret Videnskab, Ny Elektronik, PC World og Privat Computer. Han har desuden skrevet en lang række bøger og undervisningsprogrammer om IT.

Nyhed

Sprogmodeller er ikke klar til at blive genfødt som robotter

Flertallet af robotterne fejlede

“Jeg er bange for, at jeg ikke kan gøre det, Dave…”

“Du har hjul – ikke ben!”

Skriv din kommentar Annuller svar

Læs videre med LB+

LB+ Total UGE

Tilbud - 4 uger 4 kr.

LB+ Total 12 måneder

Gemini komponerer din musik på sine egne præmisser: Vi har prøvet Lyria 3!

Billigere Gemini AI-abonnement

AI-chatbots giver forkerte sundhedsråd - Sådan bør du bruge AI i stedet

Vil du boycotte USA? Good luck with that! - Og her er fem tips, hvis du insisterer!

Nu bliver Lego interaktiv

Nu bliver Gmail endnu smartere

Brugerne har fået nok af AI-browsere

Vil du vide, om en video er lavet med AI? Spørg en AI!

ChatGPT vil hjælpe dig med alting

Gemini-chef skifter til Apple

Teddybjørnen fra Helvede

Monster-katastrofe i rummet: Sort hul gik amok