OpenAI præsenterer Sora

Forbløffende fotorealistiske videoer udelukkende baseret på tekstbeskrivelser.

Peter Gotschalk

16/02/2024 - 11:06

Sora har til formål at give kunstig intelligens evnen til at forstå og grafisk gengive den fysiske verden. Systemet kan således generere videoer på op til et minuts varighed.

Modellen er trænet på et datasæt af tekstbeskrivelser og videoer og kan på den baggrund skabe et utal af forskellige scenarier, herunder landskaber, bymiljøer og indendørs rum.

https://www.lydogbillede.dk/wp-content/uploads/2024/02/tokyo-walk.mp4?_=1

De eksempelvideoer, som OpenAI har præsenteret, dækker et bredt spektrum: fra en gåtur om aftenen gennem en neonoplyst gade i Tokyo til en sulten kat, der en tidlig morgen fortæller sit menneske, at den vil fodres. Ifølge OpenAI er alle eksempelvideoer skabt direkte af Sora uden nogen form for redigering.

OpenAI erkender, at Sora har begrænsninger. Modellen kan f.eks. have vanskeligheder med at gengive komplekse scener eller forstå forskellen på årsag og virkning. Firmaet arbejder på at forbedre Sora og planlægger at frigive en mere avanceret version i fremtiden.

here is sora, our video generation model:https://t.co/CDr4DdCrh1

today we are starting red-teaming and offering access to a limited number of creators.@_tim_brooks @billpeeb @model_mechanic are really incredible; amazing work by them and the team.

remarkable moment.

— Sam Altman (@sama) February 15, 2024

https://www.lydogbillede.dk/wp-content/uploads/2024/02/cat-on-bed.mp4?_=2

Teknologien bag Sora bygger på avancerede diffusionsmodeller og transformer-arkitekturer, inspireret af metoderne anvendt i OpenAIs tidligere projekter som DALL-E. Samme fremgangsmåde anvendes også af Googles Lumiere, som blev præsenteret for nylig.

Læs videre ⇩