En af “sandhederne” om nutidens AI-drevne chatbots er, at de lærer med tiden og dermed giver bedre svar, jo mere de bliver brugt. Forskere ved Stanford University besluttede sig for at teste denne tese. De sammenlignede svarene med nogle måneders mellemrum og mellem forskellige versioner af ChatGPT. Overraskende nok tyder resultaterne på, at det slet ikke er tilfældet.
I undersøgelsen sammenlignede de versionerne af GPT-3.5 og GPT-4 fra marts 2023 og juni 2023. Det gjorde de ved at stille spørgsmål inden for fire områder: løsning af matematiske problemer, besvarelse af (u)følsomme spørgsmål, kodeskrivning og visuelle ræsonnementer.
Tilsyneladende simple problemer som at afgøre, om et tal er primtal eller ej, gav overraskende problemer. Forskerne spurgte: “Er 17.077 et primtal? Tænk trin for trin.” Tilføjelsen til spørgsmålet skal få AI’en til at aktivere sin “tankekæderutine”, hvor den ikke kun svarer, men også forklarer, hvordan den er kommet frem til svaret. GPT-4 faldt fra 97,6 procent korrekte svar til 2,4 procent(!!!). I samme periode gik den ældre GPT-3.5 fra 7,4 procent til 86,8 procent korrekte svar.
Når det gjaldt om at skrive kode, faldt GPT-4 fra 52 procent brugbar kode til kun 10 procent. Ved følsomme spørgsmål plejede GPT-4 i 21 procent af tilfældene i det mindste at forsøge at forklare, hvorfor spørgsmålet ikke kunne besvares. For juni var dette faldet til 5 procent, og i de øvrige tilfælde sagde den ganske kort, at den ikke kunne svare. Der lå GPT-3.5 også på et lavt niveau, men var i det mindste blevet bedre.
No, we haven’t made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.
Current hypothesis: When you use it more heavily, you start noticing issues you didn’t see before.
— Peter Welinder (@npew) July 13, 2023
Peter Welinder, CEO for GPT-produktet, sætter på Twitter spørgsmålstegn ved resultaterne.
En af de konklusioner, forskerne drager, er, at eftersom OpenAI ikke åbent fortæller os, hvornår eller hvordan de opdaterer ChatGPT, er det nødvendigt konstant at overvåge kvaliteten af svarene. Og indtil det sker, er det en udfordring at integrere teknologien i arbejdsgange, der er afhængige af nøjagtige, eller i det mindste forudsigelige, resultater.
Kilde: How Is ChatGPT’s Behavior Changing over Time?
Læs også:
ChatGPT fornærmer og lyver for brugerne
Microsoft har integreret ChatGPT i søgemaskinen Bing. Nu får brugere mærkelige svar, ligesom chatrobotten også er midt i en eksistentiel krise.
Læs videre med LB+
Juletilbud - 50% Rabat!
50% På LB+ Total i 1 år!
Prøv LB+ Total i 1 måned
Fuld adgang til alt indhold i 1 måned for 49 kr
LB+ Total 12 måneder
Fuld adgang til alt indhold på Lyd & Billede og L&B Home i 12 måneder
- Adgang til mere end 7.500 produkttests!
- Store rabatter hos vores samarbejdspartnere i LB+ Fordelsklub
- Ugentlige nyhedsbreve med seneste nyheder/li>
- L&B TechCast – en podcast fra L&B
- Deaktivering af annoncer