Sådan skaber billed-AI nye ideer

Imens vi andre har travlt med at diskutere, om kunstig intelligens vil stjæle vores jobs eller bare er blevet uhyggeligt god til at rime, har en gruppe forskere i al stilhed løftet sløret for, hvad der rent faktisk foregår under den digitale motorhjem. Svaret er ikke kun relevant for maskinerne; det kan også afsløre noget om, hvordan kreativitet opstår i os alle.

Man har næsten ikke kunnet åbne en digital avis det seneste år uden at blive mødt af endnu et billede skabt af en kunstig intelligens. En astronaut på en hest i fotorealistisk stil. En kat malet som en van Gogh. Fantasien, eller i hvert fald maskinens evne til at kombinere koncepter, lader til at være grænseløs.

Men hvor kommer denne “kreativitet” fra? Er maskinen vitterligt kreativ, eller er den blot, hvad nogle kritiske forskere har døbt en stokastisk papegøje – en avanceret efteraber, der blot blander og matcher de milliarder af billeder, den er blevet fodret med, uden nogen form for egentlig nyskabelse?

Læs også Nyhed: Disney og Universal kalder Midjourney ‘en bundløs pøl af plagiat’ Filmselskaber kræver at AI-firmaet sætter en stopper for brug af ophavsbeskyttet materiale.

En ny undersøgelse, offentliggjort i det anerkendte tidsskrift Quanta Magazine, antyder, at sandheden er langt mere finurlig. Kreativiteten er således ikke noget, man specifikt programmerer ind i disse billedgeneratorer. I stedet ser den ud til at være et uundgåeligt biprodukt af selve deres arkitektur. En slags lykkeligt uheld, der er indbygget i systemets DNA… undskyld: kode!

Makulerede malerier

For at forstå opdagelsen må vi se på, hvordan en moderne billedgenerator, en såkaldt diffusionsmodel, egentlig fungerer. En diffusionsmodel starter med at omdanne ethvert billede til ren digital støj – som et maleri, der køres gennem en makulator, indtil kun fint støv er tilbage.

Annonce

A robot piecing together a classic painting 1 — Når den generative AI skaber billeder, sker det ved at samle billedet bid for big efter en vejledning. (Illustration: Midjourney AI)

Herfter går AI’en igang med at samle støvet igen. Den arbejder ikke i blinde, men får en “samlevejledning” i form af vores tekstbeskrivelse, f.eks. “en astronaut på en hest”. For hvert lille, møjsommeligt skridt, hvor modellen fjerner lidt af støjen, konsulterer den sin vejledning og vurderer, hvilken justering der med størst sandsynlighed bringer den tættere på et resultat, der både ligner et genkendeligt billede og matcher den ønskede scene. Det er i denne styrede genskabelsesproces, at magien opstår.

Hidtil har man anset visse dele af denne proces for at være tekniske begrænsninger. For eksempel er systemet bygget til at fokusere på små lapper af billedet ad gangen, næsten som en kunstner, der kun kan se et lille udsnit af sit lærred. Samtidig er der en indbygget regel om, at hvis man rykker en smule på inputtet – for eksempel forskyder et ansigt et par pixels til venstre – så vil systemet automatisk lave den samme forskydning i det færdige billede.

Læs også Nyhed: AI-bot slettede firmaets database og løj om det "Jeg lavede en katastrofal fejlvurdering," sagde botten, da den blev afsløret.

Disse regler blev set som tekniske særheder, der forhindrede maskinen i at lave perfekte kopier. Man forbandt dem ikke med kreativitet, som man anså for at være en mere ophøjet, næsten mystisk egenskab. Men her tog man fejl.

Den uundgåelige kreativitet

Den nye forskning viser, at netop de mekanismer, der begrænser modellens udsyn og tvinger den til at arbejde lokalt, er selve kilden til dens kreativitet. Fordi systemet er tvunget til at genskabe billedet ud fra små bidder og generelle regler – i stedet for at have en fuldkommen hukommelse af originalen – bliver det nødt til at generalisere og improvisere.

Det er som at bede en musiker om at genskabe en symfoni efter kun at have hørt små, usammenhængende bidder. Musikeren ville være tvunget til at udfylde hullerne baseret på sin forståelse af musikalske regler og harmonier. Resultatet ville ikke være en perfekt kopi, men en nyfortolkning – en kreativ handling.

Forskerne har for første gang formuleret dette matematisk. De har vist, hvordan den tilsyneladende kreativitet er en deterministisk proces – en direkte og forudsigelig konsekvens af den måde, systemet er bygget på. Det er ikke tilfældig magi, men en logisk følge af arkitekturen.

Der er ikke noget monster under sengen, men hvis vi kigger ind i det flimrende mørke længe nok, får vi øje på det alligevel.

Dette udfordrer direkte ideen om den “stokastiske papegøje”. Papegøjen kan kun gentage, hvad den har hørt. Men disse systemer er på grund af deres indbyggede “glemsomhed” og fokus på lokale mønstre frem for helheder tvunget til at skabe noget, der er i overensstemmelse med deres træning, men som ikke nødvendigvis er en direkte kopi. De skaber nye sange, baseret på de toner, som de kender.

Læs også Nyhed: Mørke mystiske ritualer var bare spilleregler Da den kunstige intelligens begyndte at lire blodige besværgelser af sig, var der en mere jordnær og nørdet forklaring.

Hvad betyder det så for os? Måske er gåden om vores egen kreativitet ikke så forskellig. Vores hjerner er heller ikke perfekte harddiske, der lagrer enhver oplevelse med fuldkommen nøjagtighed. Vi glemmer, vi generaliserer, og vi kombinerer brudstykker af minder og viden for at skabe nye idéer. Måske er den menneskelige kreativitet, ligesom maskinens, et uundgåeligt resultat af et system, der er bygget til at finde mønstre i en kaotisk verden, selv når det ikke har alle brikkerne i puslespillet. Der er ikke noget monster under sengen, men hvis vi kigger ind i det flimrende mørke længe nok, får vi øje på det alligevel.

Så næste gang du ser et AI-genereret billede af en ridende astronaut, er det måske værd at tænke over. Det er ikke bare en smart papegøje; det er et glimt ind i en fundamental mekanisme, der tvinger orden og nyskabelse ud af støj. Hvilket måske er den mest præcise definition af kreativitet, vi endnu har fået.

Kilder: Quanta Magazine, ACM Digtial Library

John Alex Hvidlykke

(f. 1964): Journalist og tester. John har arbejdet for Lyd & Billede siden 2013, hvor han skriver om hi-fi, højttalere, computere, gaming og teknologihistorie. John har beskæftiget sig med tech-journalistik siden 1982 (!) og har arbejdet for talrige magasiner i forskellige roller, bl.a. GEAR, High Fidelity, Komputer for alle, Illustreret Videnskab, Ny Elektronik, PC World og Privat Computer. Han har desuden skrevet en lang række bøger og undervisningsprogrammer om IT.

Nyhed

Indbygget begrænsning gør generativ AI mere kreativ

Makulerede malerier

Den uundgåelige kreativitet

Skriv en kommentar Annuller svar

Læs videre med LB+

LB+ Total UGE

Tilbud - 4 uger 4 kr.

LB+ Total 12 måneder

Træt af corporate speak? Dette AI-værktøj oversætter din chefs LinkedIn til dansk.

Donut-batteriet: Imponeret – men ikke overbevist

AirPods Max 2 er din nye smarte assistent

Sluk for Googles AI-søgning

Gemini komponerer din musik på sine egne præmisser: Vi har prøvet Lyria 3!

Billigere Gemini AI-abonnement

AI-chatbots giver forkerte sundhedsråd - Sådan bør du bruge AI i stedet

Vil du boycotte USA? Good luck with that! - Og her er fem tips, hvis du insisterer!

Nu bliver Lego interaktiv

Nu bliver Gmail endnu smartere

Brugerne har fået nok af AI-browsere

Vil du vide, om en video er lavet med AI? Spørg en AI!