Spoznajte Soro, nov model besedila v video OpenAI, ki ustvarja osupljive HD videoposnetke na podlagi besedilnih pozivov

Ne gre za vprašanje "ali lahko to storimo," ampak "ali naj to storimo."

Domov » Novice

2 min. prebrati

Objavljeno dne Februar 16, 2024

by Rafly Gilang

Objavljeno dne Februar 16, 2024

Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo.

Ključne opombe

OpenAI je pravkar napovedal nov model umetne inteligence za pretvorbo besedila v video, Sora, in izgleda impresivno, a hkrati strašljivo.
Ljudje so zdaj zaskrbljeni, ali bo ta model prevzel njihova delovna mesta.
Model bo prenašal metapodatke C2PA, ko bo v prihodnosti implementiran v izdelek OpenAI.

OpenAI je pravkar napovedal nov model AI za pretvorbo besedila v video, Sora, in izgleda impresivno. Predpostavka je videti precej preprosta, a izjemna: vtipkate lahko poljubne besedne pozive, ne glede na podrobnosti, ki jih želite, nato pa se model AI vrne s 60-sekundnim zelo podrobnim videoposnetkom.

Oglejte si nekaj rezultatov, ki bi jih lahko dosegla Sora:

Poziv: »Več velikanskih volnatih mamutov se približuje in stopa po zasneženem travniku, njihov dolgi volnati kožuh med hojo rahlo piha v vetru, v daljavi so zasnežena drevesa in dramatične zasnežene gore, sredi popoldanske svetlobe s tankimi oblaki in visoko v soncu razdalja… pic.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) Februar 15, 2024

Poziv: »Napovednik filma o dogodivščinah 30-letnega vesolca, ki nosi rdečo volneno pleteno motoristično čelado, modro nebo, slana puščava, kinematografski slog, posneto na 35 mm film, žive barve.« pic.twitter.com/0JzpwPUGPB
- OpenAI (@OpenAI) Februar 15, 2024

Poziv: »Čudovito upodobljen papirnat svet koralnega grebena, ki je poln pisanih rib in morskih bitij.« pic.twitter.com/gzEE8SwP81
- OpenAI (@OpenAI) Februar 15, 2024

Poziv: »Animirana scena vsebuje bližnji posnetek kratke puhaste pošasti, ki kleči poleg topljene rdeče sveče. umetniški slog je 3D in realističen, s poudarkom na osvetlitvi in teksturi. razpoloženje slike je čudež in radovednost, ko pošast strmi v plamen z ... pic.twitter.com/aLMgJPI0y6
- OpenAI (@OpenAI) Februar 15, 2024

To je pošteno strašljivo in impresivno hkrati. Odziv javnosti na to je mešanica strahospoštovanja in preplaha, še posebej če upoštevamo Preteklost OpenAI-ja spore z novinarskimi podjetji zaradi domnevne uporabe njihovih člankov za urjenje manekenke brez njihove privolitve.

Pogovarjati se moramo tudi o potencialnih delovnih mestih, ki bi jih lahko nadomestili. Celo sam šef OpenAI Sam Altman, ki je bil nekoč odstavljen s položaja, je dejal, da je hitrost naših raziskav AI prehitro napreduje količina prilagajanja, ki jo mora narediti človeštvo, pa je alarmantna.

Ta model temelji na preteklih raziskavah DALL-E in GPT z uporabo edinstvene metode recaptioninga DALL-E 3 za ustvarjanje izjemno opisnih napisov za podatke vizualnega usposabljanja. vendar še vedno se sooča z izzivi v realističnem simuliranju zapletenih prizorov, razumevanju vzročno-posledičnih razmerij in ne zamenjavi prostorskih podrobnosti poziva.

Ko bo v prihodnosti implementiran v izdelek OpenAI, naj bo to ChatGPT, nova ponudba ali Copilot, bo model nosil metapodatke C2PA, podobno kot je Microsoft počel Image Creator iz Designerja. Preverjanje besedila in slik ščiti izdelke OpenAI pred škodljivo vsebino, kot je nasilje, sovražni govor in kršitev IP.

»Omogočamo tudi dostop številnim vizualnim umetnikom, oblikovalcem in filmskim ustvarjalcem, da pridobijo povratne informacije o tem, kako izboljšati model, da bo najbolj koristen za ustvarjalne strokovnjake,« pravi OpenAI.

Rafly Gilang

Tehnični poročevalec

Rafly je poročevalec z dolgoletnimi novinarskimi izkušnjami, ki segajo od tehnologije, poslovanja, sociale in kulture. Trenutno poroča o novicah o Microsoftovih izdelkih, tehnologiji in AI na Windows Report in MSPowerUser. Imate nasvet? Pošljite na [e-pošta zaščitena].