En af “sandhederne” om nutidens AI-drevne chatbots er, at de lærer med tiden og dermed giver bedre svar, jo mere de bliver brugt. Forskere ved Stanford University besluttede sig for at teste denne tese. De sammenlignede svarene med nogle måneders mellemrum og mellem forskellige versioner af ChatGPT. Overraskende nok tyder resultaterne på, at det slet ikke er tilfældet.

I undersøgelsen sammenlignede de versionerne af GPT-3.5 og GPT-4 fra marts 2023 og juni 2023. Det gjorde de ved at stille spørgsmål inden for fire områder: løsning af matematiske problemer, besvarelse af (u)følsomme spørgsmål, kodeskrivning og visuelle ræsonnementer.

Kilde: Lingjiao Chen, Matei Zaharia, och James Zou

Tilsyneladende simple problemer som at afgøre, om et tal er primtal eller ej, gav overraskende problemer. Forskerne spurgte: “Er 17.077 et primtal? Tænk trin for trin.” Tilføjelsen til spørgsmålet skal få AI’en til at aktivere sin “tankekæderutine”, hvor den ikke kun svarer, men også forklarer, hvordan den er kommet frem til svaret. GPT-4 faldt fra 97,6 procent korrekte svar til 2,4 procent(!!!). I samme periode gik den ældre GPT-3.5 fra 7,4 procent til 86,8 procent korrekte svar.

Når det gjaldt om at skrive kode, faldt GPT-4 fra 52 procent brugbar kode til kun 10 procent. Ved følsomme spørgsmål plejede GPT-4 i 21 procent af tilfældene i det mindste at forsøge at forklare, hvorfor spørgsmålet ikke kunne besvares. For juni var dette faldet til 5 procent, og i de øvrige tilfælde sagde den ganske kort, at den ikke kunne svare. Der lå GPT-3.5 også på et lavt niveau, men var i det mindste blevet bedre.

No, we haven’t made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Current hypothesis: When you use it more heavily, you start noticing issues you didn’t see before.

— Peter Welinder (@npew) July 13, 2023

Peter Welinder, CEO for GPT-produktet, sætter på Twitter spørgsmålstegn ved resultaterne.

En af de konklusioner, forskerne drager, er, at eftersom OpenAI ikke åbent fortæller os, hvornår eller hvordan de opdaterer ChatGPT, er det nødvendigt konstant at overvåge kvaliteten af svarene. Og indtil det sker, er det en udfordring at integrere teknologien i arbejdsgange, der er afhængige af nøjagtige, eller i det mindste forudsigelige, resultater.

Kilde: How Is ChatGPT’s Behavior Changing over Time?

Læs også:

ChatGPT fornærmer og lyver for brugerne

Microsoft har integreret ChatGPT i søgemaskinen Bing. Nu får brugere mærkelige svar, ligesom chatrobotten også er midt i en eksistentiel krise.

Læs mere

Jonas Ekelund

(f. 1969): Journalist og nyhedsredaktør. Jonas har arbejdet for Lyd & Billede siden 2007 og skriver om det meste, der kan kaldes bærbart, dvs. smartphones, trådløse højttalere og hovedtelefoner. Indimellem trænger hans tests sig ind på kollegernes områder – multirumslyd, hjemmebiograf og foto. Jonas startede sin karriere som tech-journalist på IDG og har skrevet for PC för Alla, Internetworld og det, der senere blev til M3.

Nyhed

Stanford-forskere overraskes af ChatGPT-svar

Læs også:

ChatGPT fornærmer og lyver for brugerne

Skriv din kommentar Annuller svar

Superintelligent liv i vores egen galakse

Burgerkæde fyrer kreativ AI

Lær blindeskrift med LEGO

Nu er Google NotebookLM kommet

Krypteret beskedtjeneste truer med at forlade EU

Google: Dårlig humor er skyld i svar om lim i pizzaost

- Google lyver

Googles nye AI-funktion anbefalede bruger at putte lim på deres pizza

Nye EU-regler skal forhindre 'Minority Report'

AI, AI og mere AI i Googles planer

Nu kan du tale med ChatGPT

NASA's robottog på Månen

Modtag nyhedsbrev og hold dig opdateret