Experten: Open AI:s videoverktyg Sora får långtgående konsekvenser

Open AI presenterade förra veckan en ny funktion för sin plattform för generativ AI som kan använda en textinmatning för att generera video – komplett med verklighetstrogna skådespelare och andra rörliga delar.

Den nya AI-modellen, kallad Sora, har en text-till-video-funktion som kan skapa komplexa, realistiska rörliga scener med flera karaktärer, specifika typer av rörelser och exakta detaljer om motivet och bakgrunden ”samtidigt som den visuella kvaliteten bibehålls och användarens instruktioner följs.”

Sora förstår inte bara vad en användare ber om i en prompt, utan även hur dessa saker existerar i den fysiska världen.

Tekniken översätter i princip skriftliga beskrivningar till videoinnehåll med hjälp av AI-modeller som förstår textinmatning och genererar motsvarande visuella och auditiva element, enligt Bernard Marr, som är teknikfuturist och affärs- och teknikkonsult.

– Denna process involverar djupinlärningsalgoritmer som kan tolka text och syntetisera videor som återspeglar de beskrivna scenerna, handlingarna och dialogerna, säger Marr.

Även om det inte är en ny förmåga för AI-motorer som erbjuds av andra leverantörer, som Googles Gemini, förväntas Soras inverkan bli djupgående, enligt Marr.

Som alla avancerade generativa AI-tekniker kommer Sora att bidra till att omforma innehållsskapandet, förbättra berättandet och demokratisera videoproduktionen.

– Text-till-video-funktioner har en enorm potential inom olika områden som utbildning, där de kan skapa fördjupande läromedel, marknadsföring, för att generera engagerande innehåll, och underhållning, för snabb prototyping och berättande, säger Bernard Marr.

Han varnar dock för att AI-modellernas förmåga att översätta textbeskrivningar till fullfjädrade videor också understryker behovet av rigorösa etiska överväganden och skyddsåtgärder mot missbruk.

– Framväxten av text-till-videoteknik leder till komplexa frågor om upphovsrättsintrång, särskilt eftersom den blir kapabel att generera innehåll som nära kan spegla upphovsrättsskyddade verk, säger Marr.

– Det juridiska landskapet på det här området hanteras för närvarande genom flera pågående rättsprocesser, vilket gör det för tidigt att definitivt uttala sig om hur upphovsrättsfrågorna kommer att lösas.

Potentiellt mer oroande är teknikens förmåga att producera mycket övertygande deepfakes, vilket ger upphov till allvarliga etiska frågor och integritetsfrågor, vilket understryker behovet av noggrann granskning och reglering, säger Marr.

Både Open AI:s Sora och Googles multimodala AI-modell Gemini 1.5 är för närvarande interna forskningsprojekt som endast erbjuds till en specifik grupp av akademiker från tredje part och andra som testar tekniken.

Men såväl Sora som Gemini 1.5 presenteras med med verkliga exempel och detaljerad information, inklusive videor, foton, gifs och relaterade forskningsrapporter.

Tillsammans med Googles multimodala AI-motor Gemini föregicks Sora av flera text-till-videomodeller, däribland Metas Emu, Runways Gen-2 och Stability AIs Stable Video Diffusion.

Google har två andra forskningsprojekt som är inriktade på vad en talesperson kallar ”state-of-the-art inom videogenereringsmodeller”. Dessa projekt är Lumiere och Videopoet.

Lumiere släpptes tidigare den här månaden och är Googles mer avancerade teknik för videogenerering. Den erbjuder 80 bilder per sekund jämfört med 25 bilder per sekund från konkurrenter som Stable Video Diffusion.

– Gemini, som är utformat för att bearbeta information och automatisera uppgifter, erbjuder en sömlös integrering av modaliteter redan från början, vilket kan göra det mer intuitivt för användare som söker en enkel, uppgiftsorienterad upplevelse, säger Bernard Marr.

– Å andra sidan möjliggör GPT-4:s skiktning en mer detaljerad förbättring av förmågorna över tid, vilket ger flexibilitet och djup i konversationsförmågor och innehållsgenerering.

I en direkt jämförelse framstår Sora som mer kraftfull än Googles modeller för videogenerering. Medan Googles Lumiere kan producera en video med en upplösning på 512×512 pixlar, hävdar Sora att man kan nå upplösningar på upp till 1920×1080 pixlar, eller hd-kvalitet.

Lumieres videor är begränsade till cirka 5 sekunder, medan Soras videor kan vara upp till en minut långa.

Dessutom kan Lumiere inte skapa videor som består av flera tagningar, vilket Sora kan. Sora, liksom andra modeller, kan enligt uppgift också utföra videoredigeringsuppgifter som att skapa videor från bilder eller andra videor, kombinera element från olika videor och förlänga videor i tiden.

– I konkurrensen mellan Open AI:s Sora och startups som Runway AI kan mognad erbjuda fördelar när det gäller tillförlitlighet och skalbarhet, säger Bernard Marr.

– Även om nystartade företag ofta kommer med innovativa metoder och smidighet kommer Open AI, med stor finansiering från företag som Microsoft, att kunna komma ikapp och potentiellt ta sig förbi snabbt.

Generative AI