Mød Sora, OpenAIs nye tekst-til-video-model, der skaber fantastiske HD-videoer baseret på tekstprompter

Det er ikke et spørgsmål om "kan vi gøre det", men "skal vi gøre det."

Ikon for læsetid 2 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

Nøgle noter

  • OpenAI har netop annonceret en ny tekst-til-video AI-model, Sora, og den ser imponerende ud, men samtidig skræmmende.
  • Folk er nu bekymrede for, om denne model vil overtage deres job.
  • Modellen vil bære C2PA-metadata, når den er implementeret i et OpenAI-produkt i fremtiden.

OpenAI har netop annonceret en ny tekst-til-video AI-model, Sora, og det ser imponerende ud. Udgangspunktet for det ser ret simpelt ud, men alligevel bemærkelsesværdigt: du kan skrive alle ordmeddelelser, uanset hvor detaljeret du vil, og så kommer AI-modellen tilbage med en 60 sekunders meget detaljeret video. 

Tag et kig på nogle af de resultater, som Sora kunne gøre:

Det er ærlig talt skræmmende og imponerende på samme tid. Den offentlige reaktion på det er en blanding af ærefrygt og alarm, især i betragtning af OpenAI's tidligere lovlige tvister med journalistiske virksomheder for angiveligt at bruge deres artikler til at træne modellen uden deres samtykke.

Og vi skal også tale om potentielle job, der kunne erstattes. Selv OpenAI-boss Sam Altman selv, som engang blev fordrevet fra stillingen, sagde, at tempoet i vores AI-forskning har været går alt for hurtigt frem og mængden af ​​tilpasning, som menneskeheden skal foretage, er alarmerende.

Denne model bygger på tidligere DALL-E- og GPT-forskning ved at bruge DALL-E 3's unikke genskrivningsmetode til at generere ekstremt beskrivende billedtekster til de visuelle træningsdata. Imidlertid, den står stadig over for udfordringer i realistisk simulering af komplekse scener, forståelse af årsag-virkning-forhold og ikke forvirrende rumlige detaljer i en prompt.

Når den implementeres i et OpenAI-produkt i fremtiden, hvad enten det er ChatGPT, et nyt tilbud eller Copilot, vil modellen bære C2PA-metadata, svarende til hvad Microsoft har gjort på Image Creator fra Designer. Tekst- og billedtjek beskytter OpenAI-produkter mod skadeligt indhold som vold, hadefulde ytringer og IP-krænkelse.

"Vi giver også adgang til en række billedkunstnere, designere og filmskabere for at få feedback om, hvordan man kan fremme modellen til at være mest nyttig for kreative fagfolk," siger OpenAI.

Giv en kommentar

Din e-mail adresse vil ikke blive offentliggjort. Krævede felter er markeret *