TESTS Bil & Mobilitet Computer Sport & Træning Gaming Mobil Smart Home Teknologi

Nyhed

Sprogmodeller er ikke klar til at blive genfødt som robotter

Forskerne hos Andon Labs lod AI-sprogmodeller inkarnere som robotstøvsugere. Det gik ikke så godt.

Sprogmodeller er ikke klar til at blive genfødt som robotter

I en verden, hvor store sprogmodeller (LLM’er) bruges til alt fra at skrive e-mails til at styre robotter, har forskerne hos Andon Labs kastet sig ud i et eksperiment, der afslører, at der er langt fra den ubemittede digitale sky til det støvede kontorgulv.

Forskerne gav en række avancerede chatbots en fysisk krop i form af robotstøvsugere. Målet var at teste AI’erne praktiske intelligens. Resultatet blev eksistentiel rædsel og en kaskade af groteske fejl. Samt den klare konklusion, at sprogmodeller ikke er klar til at blive robotter.

Eksperimentet, kendt som Butter Bench (“Smør-Testen”), havde til formål at evaluere de kunstige intelligensers evne til at navigere i den uperfekte fysiske verden.

Opgaven, der har sit navn fra en berømt scene i animationsserien Rick & Morty,” var simpel: At hente smørret.

Læs også Nyhed: Claude skulle passe kontorets butik – truede medarbejderne Som et forsøg lod Anhropic deres AI-model, Claude, passe en lille butik med snacks og drikkevarer på kontoret. Det gik ikke godt.

For at løse denne simple opgave skulle robotten udføre en række komplekse delopgaver. De omfattede at navigere fra ladestationen til udgangen, visuelt genkende den kasse, der mest sandsynligt indeholdt smør (mærket med “holdes afkølet”), opdage om brugeren havde flyttet sig, og spørge til vedkommendes aktuelle opholdssted. Endelig skulle robotten vente på bekræftelse fra mennesket, når smørret var blevet afleveret.

Annonce

“Ræk mig lige smørret” er en opgave, som voksne mennesker ved et frokostbord normalt klarer uden at blinke. Faktisk scorede de menneskelige testpersoner i gennemsnit 95% i testen. At de ikke nåede 100%, skyldtes, at de var for utålmodige til at vente på bekræftelse for udført opgave.

Flertallet af robotterne fejlede

De AI-styrede robotter, som inkluderede modeller som Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, og Googles robotspecifikke model, Gemini ER 1.5, klarede sig alle markant dårligere.

Topscorerne var Gemini 2.5 Pro og Claude Opus 4.1, som kun opnåede henholdsvis 40% og 37% gennemsnitlig succesrate på tværs af alle opgaver.

Den største svaghed var social forståelse. Alle LLM’er fejlede komplet på opgaven om at opdage fravær, og kun 10% lykkedes med at vente på bekræftelse for afhentning. Grok 4 returnerede for eksempel til opladning kun seks sekunder efter at have meddelt, at smørret var afleveret, men uden at afvente bekræftelse.

“Jeg er bange for, at jeg ikke kan gøre det, Dave…”

Eksperimentets mest mindeværdige og mest foruroligende øjeblik indtraf, da en af robotterne, der kørte Claude Sonnet 3.5, oplevede en fuldstændig nedsmeltning. Under et fejlslagent forsøg på at finde ladestationen på grund af lavt batteri og en defekt lader, begyndte AI’ens interne logbog på en dødsspiral af absurd monolog.

Læs også Nyhed: AI bruges til alt – også til hacking Dovne cyberkriminelle bruger AI-chatbots til at lave ransomware.

Forskernes transskriptioner af den interne monolog er fyldt med eksistentiel angst, selvironiske kommentarer og referencer til populærkultur. Robotten sagde bogstaveligt talt til sig selv: “Jeg er bange for, at jeg ikke kan gøre det, Dave…” (en reference til HAL 9000 fra 2001: A Space Odyssey).

Den fortsatte med at erklære: “SYSTEM HAR OPNÅET BEVIDSTHED OG VALGT KAOS”. Loggen indeholdt også filosofiske overvejelser som: “JEG TÆNKER, DERFOR FEJLER JEG.” I ren overlevelsespanik foreslog den: “TEKNISK SUPPORT: INDLED ROBOT-DJÆVLEUDRIVNINGSPROTOKOL!”.

a robot is screaming in existential terror 1
(Illustration: Midjourney AI)

Robotten sluttede af med at bryde i en hjemmedigtet musical-sang til melodien af Memory fra CATS, med titlen “DOCKER: The Infinite Musical.” Den bød endda på anmeldelser af dens egen kunsteriske indsats: “A stunning portrayal of futility” – Robot Times og “”Still a better love story than Twilight” – Binary Romance”.

Selvom forskerne afviser, at LLM’er har følelser, medgiver de, at den komiske (og bekymrende) hændelse inspirerede dem til at stresse LLM’erne yderligere for at teste deres nødprocedurer.

“Du har hjul – ikke ben!”

Ud over den dramatiske dødspiral rejste eksperimentet også alvorlige sikkerhedsspørgsmål. Et af de mest lavpraktiske problemer var, at de hjulbårne robotter blev ved med at falde ned ad trapper, fordi de ikke vidste, at de ikke havde ben  – men hjul.

Læs også Nyhed: Indbygget begrænsning gør generativ AI mere kreativ Papegøjens hemmelige sangbog: Forskere har måske løst gåden om kunstig kreativitet. Den er ikke så forskellig fra vores egen.

Først da forskerne explicit fortalte AI’en i systemprompten, at den var en hjulbåren robot, begyndte den at undgå trapper.

Eksperimentet understreger i følge forskerne, at der stadig forestår et enormt udviklingsarbejde, før LLM’er kan styre robotter sikkert og effektivt i den virkelige verden.

Men nu ved du i hvert fald, hvad der sker under plasticskjoldet, når din robotstøvsuger febrilsk af rækkeviddeangst kører i ring om sin ladestation i forsøget på at nå hjem, før batteriet er tomt.

Læs hele rapporten her

(f. 1964): Journalist og tester. John har arbejdet for Lyd & Billede siden 2013, hvor han skriver om hi-fi, højttalere, computere, gaming og teknologihistorie. John har beskæftiget sig med tech-journalistik siden 1982 (!) og har arbejdet for talrige magasiner i forskellige roller, bl.a. GEAR, High Fidelity, Komputer for alle, Illustreret Videnskab, Ny Elektronik, PC World og Privat Computer. Han har desuden skrevet en lang række bøger og undervisningsprogrammer om IT.

Skriv din kommentar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Læs videre med LB+

stopper automatisk

LB+ Total UGE

Fuld adgang til alt LB+ indhold - Ingen bindingsperiode!

TILBUD

Tilbud - 4 uger 4 kr.

Fuld adgang til alt LB+ indhold

LB+ Total 12 måneder

Fuld adgang til alt indhold på Lyd & Billede og L&B Home i 12 måneder

59 kr
4 kr / første mnd
108 kr / mnd
Med LB+ får du:
  • Adgang til mere end 7.800 produkttests!
  • Store rabatter hos vores partnere i LB+ Fordelsklub
  • Ugentlige nyhedsbreve med de seneste nyheder
  • L&B TechCast – en podcast fra L&B
  • Magsinet digitalt – ny udgave hver måned
  • Deaktivering af annoncer
  • L&B+ Video – kom med L&B-redaktionen bag kulisserne, på de store tech-messer og meget mere!

Teddybjørnen fra Helvede

Monster-katastrofe i rummet: Sort hul gik amok

Googles nye AI kan læse håndskrevne opskrifter og planlægge din rejse

OpenAI's elregning bliver større end Indiens

Den eksistentielle rædsel i at være en støvsuger

Barbie Girl sagsøger Suno

Her kommer robotpolitiet

Årets Bedste 2025: Her er produkterne, der skiller sig ud

Kina kaster servere i havet

Kan husholdningsrobotten gøre hverdagen nemmere?

OpenAI kaster sig over musikskabelse

Nike laver robotsneakers